Современные технологии добычи данных STATISTICA в медицинеЮрий Гусаров ВведениеStatSoft предлагает уникальные технологии анализа и добычи данных, в частности, методы Data Mining. Эти методы реализованы в удобном интерфейсе и позволяют даже начинающему пользователю провести исследования. В данной статье проводится обзор методов Data Mining, в числе которых реализованы методы Нейронных сетей, Обобщенного кластерного анализа, Правил связи, Деревьев классификации и регрессии, Интерактивных деревьев, Растущих деревьев, Обобщенных аддитивных моделей, МАР-сплайнов, Процедур машинного обучения и т.д. В первой части можно увидеть некоторые диалоговые окна программы STATISTICA Data Miner. Во второй части статьи приводятся впечатляющие результаты работы некоторых методов Data Mining в одной реальной медицинской задаче. Смотрите также Статистический медицинский советник. Часть I. Русский интерфейс STATISTICA Data MinerОбычно работа начинается с загрузки файла данных и выбора метода анализа данных.
Программа STATISTICA встречает Вас диалоговым окном приглашения, в котором можно либо указать одно из типичных действий перед началом работы, либо выбрать один из последних файлов, с которым производилась работа в программе.
После нажатия OK в вышеприведенном диалоге, мы перейдем в окно открытия файлов:
Отметим, что программа STATISTICA "понимает" все распространенные форматы файлов данных, среди которых файлы xls, txt, htm, xml, rtf и многие другие.
После открытия файла на экране отобразится таблица данных следующего вида:
После этого можно выбирать методы анализа данных.
Перейти к выбору метода анализа можно несколькими способами: либо через пункт
главного меню Анализ, либо нажав кнопку
После выбора строки с названием метода анализа появляется соответствующая ему стартовая панель.
В стартовой панели анализа выбирается одна из модификаций метода,
либо модификация метода и интерфейс настройки и проведения анализа (от Мастера анализа - максимальное число подсказок и настроек по умолчанию, до Редактора кода - режим программирования)
Следующий общий шаг анализа - выбор переменных (зависимых/независимых, непрерывных/категориальных).
Начинающий пользователь может задать параметры, приведенные на вкладке Быстрый, а остальные можно оставить по умолчанию.
Продвинутые аналитики могут оценить всю гибкость настроек, воспользовавшись настройками на вкладке Дополнительно и некоторых специальных вкладках.
Наконец, задав переменные и параметры, мы переходим к этапу анализа результатов.
Типичным для программы STATISTICA является следующее диалоговое окно результатов:
На вкладке Быстрый можно ознакомиться с наиболее общими итогами анализа, таблицами результатов (прогнозов) и показателями качества работы метода. Далее, если результаты анализа нас не устраивают, возвращаемся к пункту 2 (выбор переменных). Ниже приведены некоторые диалоговые окна русской версии программы STATISTICA Data Miner (SDM):
Часть II. Прогнозирование осложнений процесса послеоперационного восстановления с помощью STATISTICA Data Miner
На основе данных, полученных к моменту выписки пациента из больницы, необходимо спрогнозировать, будет ли период восстановления протекать с осложнениями или без осложнений. Были собраны данные по 43 пациентам, для каждого пациента известно до 38 характеристик (таких, как рост, вес, пол, диагноз, исход операции). Данные неполные, в таблице много пропущенных ячеек. Для проведения анализа были использованы следующие методы:
1. Правила связи Простой и интуитивно понятный метод поиска зависимостей вида "Если - То". Работает с многомерными откликами/дихотомиями. Результаты становятся понятны сразу, на подсознательном уровне. В данной задаче выявлено правило "Если исход = выписан, то осложнений не будет". Причем это правило действует в 91, 4% случаев, что становится ясно из итоговой таблицы результатов Правил связи.
2. Нейронные сети: Всего за 5-10 минут работы удалось построить и обучить сеть 100%-ной точности. При этом попутно были найдены и выделены всего 4 переменных из 40, которые полностью объясняли зависимую переменную.
Сеть - многослойный персептрон, всего 3 слоя (1 скрытый), 4 элемента на входном слое, 10 на промежуточном, 1 на выходном. Матрица ошибок для контрольной выборки:
3. Процедуры обучения Процедуры обучения (Метод опорных векторов и Байесовские оценки) не показали в данной задаче хороших результатов. Процент правильной классификации составил 91%, причем осложнения предсказывались с точностью всего 60%.
4. Деревья классификации и регрессии Метод, показавший 100%-ый результат при минимальном участии пользователя. Это связано с тем, что задача относительно несложная, и число классов зависимой переменной невелико (2 класса).
Как видно, деревья классификации с построением выделили небольшое количество переменных, полностью классифицирующих зависимую.
5. Общие CHAID модели Этот метод оказался неэффективным для данной задачи. Это связано с тем, что CHAID-модели предназначены в первую очередь для работы с большими объемами данных и большим числом классов выходной переменной.
С помощью методов Data Mining, реализованных в STATISTICA, удалось спрогнозировать общий ход процесса послеоперационного восстановления со 100% точностью. Был выделен набор из 4 характеристик, которые определяют наличие/отсутствие осложнений после выписки из стационара. Решение такого рода задач очень важно для медицинских работников. Технологии StatSoft позволяют успешно решать эти задачи и эффективно применять на практике разнообразные методы анализа и добычи данных.
|