StatSoft Russia
   главная       о компании       продукты       консалтинг       отрасли       ресурсы       порталы       VIP   
Продукты

       STATISTICA
  »   Neural Networks
       Industrial System
       Data Miner
       Enterprise Solutions
       Каталог продуктов
       Интеграция

Сокращение размерности данных в геологическом исследовании

Имеются данные геологоразведки, требуется определить, какие факторы значимо влияют на добычу полезных ископаемых, а какие можно исключить.

Структура данных

В целом в данных имеется зависимая переменная Y и независимые переменные.Зависимая переменная Y является непрерывной и характеризует добычу полезных ископаемых; к независимым переменным (предикторам) относятся характеристики проб, взятые на разных участках и на разной глубине. Данные носят модельный характер.

Рис.1. Фрагмент исходного файла данных

Это типичные данные, возникающие в геологоразведке. Задача состоит в том, чтобы по значению предикторов предсказать значение отклика. Отметим, в задаче имеется большое число предикторов, поэтому вначале нужно уменьшить их количество, удалив незначимые предикторы. Это делается с помощью процедуры понижения размерности.

Построение модели

Рассмотрим методы понижения размерности в нейронных сетях STATISTICA.

 Шаг 1. Запускаем модуль Нейронные сети STATISTICA. На стартовом окне выбираем тип задачи: Регрессия (зависимая переменная непрерывная). Далее, переходим к заданию переменных. Для этого на стартовом окне модуля, на вкладке Быстрый, нажимаем кнопку Переменные.

Рис.2. Стартовое окно модуля Нейронные сети, вкладка Быстрый

В появившемся диалоговом окне выбираем переменные, в данном примере имеется выходная (зависимая) переменная и 46 входных переменных. В левом окне выберем непрерывную выходную переменную, - это переменная Y с номером 46. Выберем входные переменные – это независимые переменные, которые предсказывают отклик. В нашем примере имеется только одна категориальная входная переменная – category_Пл., остальные предикторы – непрерывные.

Рис.3. Диалоговое окно задания переменных

После выбора переменных нажимаем OK. На стартовом окне переходим на вкладку Дополнительно и выбираем инструмент Понижение размерности.

Рис.4. Стартовое окно модуля Нейронные сети, вкладка Дополнительно

Шаг 2. На экране появляется диалоговое окно Понижение размерности. Доступны следующие методы: последовательный с включением, последовательный с исключением, генетический алгоритм отбора признаков.

Рис.5. Окно задания параметров для алгоритмов снижения размерности

Вначале получим результаты с помощью алгоритма с включением. Для этого на вкладке Быстрый выбираем алгоритм Последовательный с включением и нажимаем OK. Итоговый результат записывается в виде таблицы:

Рис.6. Заключительная часть таблицы результатов алгоритма Последовательный с включением

На первом этапе переменные по отдельности включаются в модель, находится переменная, которая дает наименьшую ошибку. Затем модель начинает процедуру поиска второй переменной, которая уменьшает значение ошибки. И так до тех пор, пока включение новых переменных уменьшает ошибку. В качестве значимых предикторов выделены: F9, F13, F24, F26, F27, F32, F34, F38, F42, F43. Аналогично задачу можно решить с помощью алгоритмов с исключением и генетического алгоритма (см. полную версию примера).

Итог: мы существенно сократили число предикторов, теперь можно построить несколько регрессионных моделей и по предсказанному отклику сравнить их качество.

Шаг 3. В программе STATISTICA предусмотрена возможность проведения анализа чувствительности сети к входным переменным. Процедура позволяет сделать вывод об относительной важности входных переменных для конкретной нейронной сети и, при необходимости, удалить входы с низкими показателями чувствительности. Анализ чувствительности можно использовать либо с сугубо информационными целями, либо для удаления лишних входов. Проведение анализа чувствительности изложено в полной версии примера.


e-mail    контакты контакты   обратная связь   карта сайта © StatSoft Russia 2010