МедицинаВ начало

Современные технологии добычи данных STATISTICA в медицине

Юрий Гусаров
технический специалист StatSoft Russia


Введение

StatSoft предлагает уникальные технологии анализа и добычи данных, в частности, методы Data Mining. Эти методы реализованы в удобном интерфейсе и позволяют даже начинающему пользователю провести исследования. В данной статье проводится обзор методов Data Mining, в числе которых реализованы методы Нейронных сетей, Обобщенного кластерного анализа, Правил связи, Деревьев классификации и регрессии, Интерактивных деревьев, Растущих деревьев, Обобщенных аддитивных моделей, МАР-сплайнов, Процедур машинного обучения и т.д. В первой части можно увидеть некоторые диалоговые окна программы STATISTICA Data Miner. Во второй части статьи приводятся впечатляющие результаты работы некоторых методов Data Mining в одной реальной медицинской задаче.

Смотрите также Статистический медицинский советник.

Часть I. Русский интерфейс STATISTICA Data Miner

Обычно работа начинается с загрузки файла данных и выбора метода анализа данных.


Шаг 1. Загрузка файла данных.

Программа STATISTICA встречает Вас диалоговым окном приглашения, в котором можно либо указать одно из типичных действий перед началом работы, либо выбрать один из последних файлов, с которым производилась работа в программе.




Рисунок 1. Диалоговое окно Приглашение в STATISTICA


После нажатия OK в вышеприведенном диалоге, мы перейдем в окно открытия файлов:




Рисунок 2. Окно открытия файлов STATISTICA


Отметим, что программа STATISTICA "понимает" все распространенные форматы файлов данных, среди которых файлы xls, txt, htm, xml, rtf и многие другие.




Рисунок 3. Часть списка совместимых форматов данных


После открытия файла на экране отобразится таблица данных следующего вида:




Рисунок 4. Таблица данных STATISTICA


После этого можно выбирать методы анализа данных.



Шаг 2. Выбор метода анализа данных

Перейти к выбору метода анализа можно несколькими способами: либо через пункт главного меню Анализ, либо нажав кнопку в левом нижнем углу рабочей области STATISTICA, либо нажав кнопку, соответствующую конкретному методу, на Панели инструментов.




Рисунок 5. Выпадающее меню Анализ


После выбора строки с названием метода анализа появляется соответствующая ему стартовая панель.



Шаг 3. Задание параметров анализа


    Шаг 3.1. Выбор конкретного метода и интерфейса анализа.

В стартовой панели анализа выбирается одна из модификаций метода,




Рисунок 6. Стартовая панель Анализа выживаемости


либо модификация метода и интерфейс настройки и проведения анализа (от Мастера анализа - максимальное число подсказок и настроек по умолчанию, до Редактора кода - режим программирования)




Рисунок 7. Стартовая панель Дисперсионного анализа



    Шаг 3.2. Выбор переменных.

Следующий общий шаг анализа - выбор переменных (зависимых/независимых, непрерывных/категориальных).




Рисунок 8. Стандартное окно выбора переменных



    Шаг 3.3. Настройка параметров анализа

Начинающий пользователь может задать параметры, приведенные на вкладке Быстрый, а остальные можно оставить по умолчанию.




Рисунок 9. Настройка параметров анализа. Вкладка Быстрый


Продвинутые аналитики могут оценить всю гибкость настроек, воспользовавшись настройками на вкладке Дополнительно и некоторых специальных вкладках.




Рисунок 10. Настройка параметров анализа. Вкладка Дополнительно


Наконец, задав переменные и параметры, мы переходим к этапу анализа результатов.



Шаг 4. Получение и анализ результатов

Типичным для программы STATISTICA является следующее диалоговое окно результатов:




Рисунок 11. Диалог результатов Анализа выживаемости


На вкладке Быстрый можно ознакомиться с наиболее общими итогами анализа, таблицами результатов (прогнозов) и показателями качества работы метода.

Далее, если результаты анализа нас не устраивают, возвращаемся к пункту 2 (выбор переменных).

Ниже приведены некоторые диалоговые окна русской версии программы STATISTICA Data Miner (SDM):




Рисунок 12. Меню выбора методов Data Mining - Добычи данных





Рисунок 13. Интерактивное бурение и описательный анализ данных





Рисунок 14. Готовый проект Углубленной классификации





Рисунок 15. Нейронные сети - Диалог вывода результатов





Рисунок 16. Обобщенные методы кластерного анализа - Диалог результатов





Рисунок 17. Диалоговое окно Результаты правил связи





Рисунок 18. Граф правил связи





Рисунок 19. Деревья классификации и регрессии - Диалоговое окно результатов





Рисунок 20. Процесс построения растущих деревьев





Рисунок 21. Растущие деревья - Диалог результатов





Рисунок 22. Процедуры машинного обучения - байесовские методы - Диалог результатов





Рисунок 23. Пользовательский проект для решения задач классификации


Часть II. Прогнозирование осложнений процесса послеоперационного восстановления с помощью STATISTICA Data Miner


Постановка задачи

На основе данных, полученных к моменту выписки пациента из больницы, необходимо спрогнозировать, будет ли период восстановления протекать с осложнениями или без осложнений.

Были собраны данные по 43 пациентам, для каждого пациента известно до 38 характеристик (таких, как рост, вес, пол, диагноз, исход операции). Данные неполные, в таблице много пропущенных ячеек.

Для проведения анализа были использованы следующие методы:
Association Rules - Правила связи
Neural Networks - Нейронные сети
C & RT Trees - Деревья классификации и регрессии
Machine Learning - Процедуры обучения
General CHAID Models - Общие CHAID модели


Результаты анализа по методам:

1. Правила связи

Простой и интуитивно понятный метод поиска зависимостей вида "Если - То". Работает с многомерными откликами/дихотомиями. Результаты становятся понятны сразу, на подсознательном уровне. В данной задаче выявлено правило "Если исход = выписан, то осложнений не будет". Причем это правило действует в 91, 4% случаев, что становится ясно из итоговой таблицы результатов Правил связи.




Рисунок 24. Таблица результатов поиска правил связи





Рисунок 25. Граф найденных правил связи


2. Нейронные сети:

Всего за 5-10 минут работы удалось построить и обучить сеть 100%-ной точности. При этом попутно были найдены и выделены всего 4 переменных из 40, которые полностью объясняли зависимую переменную.




Рисунок 26. Архитектура многослойного персептрона


Сеть - многослойный персептрон, всего 3 слоя (1 скрытый), 4 элемента на входном слое, 10 на промежуточном, 1 на выходном.

Матрица ошибок для контрольной выборки:




Рисунок 27. Матрица ошибок классификации на контрольной выборке


3. Процедуры обучения

Процедуры обучения (Метод опорных векторов и Байесовские оценки) не показали в данной задаче хороших результатов. Процент правильной классификации составил 91%, причем осложнения предсказывались с точностью всего 60%.




Рисунок 28. Итоги классификации методом опорных векторов


4. Деревья классификации и регрессии

Метод, показавший 100%-ый результат при минимальном участии пользователя. Это связано с тем, что задача относительно несложная, и число классов зависимой переменной невелико (2 класса).




Рисунок 29. Дерево классификации


Как видно, деревья классификации с построением выделили небольшое количество переменных, полностью классифицирующих зависимую.




Рисунок 30. Матрица ошибок классификации с помощью деревьев классификации


5. Общие CHAID модели

Этот метод оказался неэффективным для данной задачи. Это связано с тем, что CHAID-модели предназначены в первую очередь для работы с большими объемами данных и большим числом классов выходной переменной.




Рисунок 31. Матрица ошибок классификации с помощью CHAID алгоритма




Вывод

С помощью методов Data Mining, реализованных в STATISTICA, удалось спрогнозировать общий ход процесса послеоперационного восстановления со 100% точностью. Был выделен набор из 4 характеристик, которые определяют наличие/отсутствие осложнений после выписки из стационара.

Решение такого рода задач очень важно для медицинских работников. Технологии StatSoft позволяют успешно решать эти задачи и эффективно применять на практике разнообразные методы анализа и добычи данных.



Список литературы:

  1. Боровиков В.П. Искусство анализа данных на компьютере (для профессионалов) - 3-е издание, СПб.: Питер, 2003
  2. В. Дюк, А. Самойленко. Data Mining: учебный курс. - СПб: Питер, 2001
  3. Электронный учебник StatSoft на www.statsoft.ru