| |
Сокращение размерности данных в геологическом исследовании
Имеются данные геологоразведки, требуется определить, какие факторы значимо влияют на добычу полезных ископаемых, а какие можно исключить.
Структура данных
В целом в данных имеется зависимая переменная Y и независимые переменные.Зависимая переменная Y является непрерывной и характеризует добычу полезных ископаемых; к независимым переменным (предикторам) относятся характеристики проб, взятые на разных участках и на разной глубине. Данные носят модельный характер.

Рис.1. Фрагмент исходного файла данных
Это типичные данные, возникающие в геологоразведке. Задача состоит в том, чтобы по значению предикторов предсказать значение отклика. Отметим, в задаче имеется большое число предикторов, поэтому вначале нужно уменьшить их количество, удалив незначимые предикторы. Это делается с помощью процедуры понижения размерности.
Построение модели
Рассмотрим методы понижения размерности в нейронных сетях STATISTICA.
Шаг 1. Запускаем модуль Нейронные сети STATISTICA. На стартовом окне выбираем тип задачи: Регрессия (зависимая переменная непрерывная). Далее, переходим к заданию переменных. Для этого на стартовом окне модуля, на вкладке Быстрый, нажимаем кнопку Переменные.

Рис.2. Стартовое окно модуля Нейронные сети, вкладка Быстрый
В появившемся диалоговом окне выбираем переменные, в данном примере имеется выходная (зависимая) переменная и 46 входных переменных. В левом окне выберем непрерывную выходную переменную, - это переменная Y с номером 46. Выберем входные переменные – это независимые переменные, которые предсказывают отклик. В нашем примере имеется только одна категориальная входная переменная – category_Пл., остальные предикторы – непрерывные.

Рис.3. Диалоговое окно задания переменных
После выбора переменных нажимаем OK. На стартовом окне переходим на вкладку Дополнительно и выбираем инструмент Понижение размерности.

Рис.4. Стартовое окно модуля Нейронные сети, вкладка Дополнительно
Шаг 2. На экране появляется диалоговое окно Понижение размерности. Доступны следующие методы: последовательный с включением, последовательный с исключением, генетический алгоритм отбора признаков.

Рис.5. Окно задания параметров для алгоритмов снижения размерности
Вначале получим результаты с помощью алгоритма с включением. Для этого на вкладке Быстрый выбираем алгоритм Последовательный с включением и нажимаем OK. Итоговый результат записывается в виде таблицы:

Рис.6. Заключительная часть таблицы результатов алгоритма Последовательный с включением
На первом этапе переменные по отдельности включаются в модель, находится переменная, которая дает наименьшую ошибку. Затем модель начинает процедуру поиска второй переменной, которая уменьшает значение ошибки. И так до тех пор, пока включение новых переменных уменьшает ошибку. В качестве значимых предикторов выделены: F9, F13, F24, F26, F27, F32, F34, F38, F42, F43. Аналогично задачу можно решить с помощью алгоритмов с исключением и генетического алгоритма (см. полную версию примера).
Итог: мы существенно сократили число предикторов, теперь можно построить несколько регрессионных моделей и по предсказанному отклику сравнить их качество.
Шаг 3. В программе STATISTICA предусмотрена возможность проведения анализа чувствительности сети к входным переменным. Процедура позволяет сделать вывод об относительной важности входных переменных для конкретной нейронной сети и, при необходимости, удалить входы с низкими показателями чувствительности. Анализ чувствительности можно использовать либо с сугубо информационными целями, либо для удаления лишних входов. Проведение анализа чувствительности изложено в полной версии примера.
| |