StatSoft Russia
   главная       о компании       продукты       консалтинг       отрасли       ресурсы       порталы       VIP   
Продукты

       STATISTICA
  »   Neural Networks
       Industrial System
       Data Miner
       Enterprise Solutions
       Каталог продуктов
       Интеграция

Кластеризация двух множеств

Структура данных

Исходные данные представлены в следующем файле:

Рис.1. Исходная таблица данных

Переменные X и Y содержат результаты измерения объектов; принадлежность объекта к определенному классу записана в переменной Group. Переменная Group принимает два значения: 0, если объект относится к классу 0, значение 2, если объект относится к классу 2.

Визуально данные показаны на рисунке:

Рис.2. Диаграмма рассеяния с выделенными подгруппами

Требуется разделить два класса. Такого рода задачи возникают в различных областях, например, в геологии.

Построение модели

В данной задаче мы будем использовать самоорганизующиеся карты Кохонена.

Из структуры множеств, показанной на рис.2 видно, что модели линейного анализа неприменимы.

Рис.3. Классификация с помощью линейных моделей

Заметим, что множества не являются линейно разделимыми, поэтому многослойный персептрон использовать нецелесообразно.

Шаг 1. Запускаем модуль Нейронные сети (рис.4).

Рис.4. Меню Анализ системы STATISTICA

Шаг 2. Выбираем Тип задачи: Кластерный анализ; инструмент: Конструктор сетей.

Рис.5. Стартовое окно модуля Нейронные сети

Шаг 3. Нажимаем кнопку Переменные и выбираем X и Y как независимые переменные. Class – как категориальную выходную переменную.

Class принимает два значения: 0 – если элемент принадлежит классу 0, 2 – если элемент принадлежит классу 2.

Рис.6. Диалог выбора переменных

Шаг 4. Далее и переходим на следующую вкладку. На вкладке необходимо указать тип сети, с помощью которой будем проводить анализ.

Выберем самоорганизующиеся карты Кохонена.

Рис.7. Окно конструктора сетей

Шаг 5. Перейдем на вкладку Элементы.

Рис.8. Окно конструктора сетей, вкладка Элементы

На данной вкладке мы задаем сложность сети, которую намереваемся построить.

В терминах самоорганизующейся карты это означает, что нам необходимо указать размерность топологической карты. Чем меньше элементов, тем меньше особенностей мы можем распознать с помощью карты.

С другой стороны, при наличии слишком большого числа элементов на топологической карте, мы рискуем получить «зазубривание» обучающих данных.

Лучше всего понять выбор с помощью экспериментирования. Для начала укажем размер карты 3x3.

Шаг 6. Нажимаем OK. Появится окно параметров обучения.

Рис.9. Окно обучения Кохонена

Величины параметров, задаваемые в этом окне, и их объяснение приведены в полной версии примера.

Алгоритм обучения состоит из двух этапов, хотя вы можете отменить один из них. Это обучение без учителя. Обучение является итеративным, занимает несколько эпох, использует значение скорости обучения и аналогичные окрестности, которые корректируются на каждой эпохи.

Шаг 7. Топологическая карта показана на рис.10.

Рис.10. Окно результатов, вкладка Топологическая карта

Напомним, что в исходной таблице наши классы имели названия: «0» и «2».

Шаг 8. Теперь можно просматривать результаты классификации. Для этого нажимаем на текущем окне «Отмена».

Мы попадаем в стандартное окно результатов (рис.11).

Рис.11. Окно результатов

Шаг 9. Итоговую классификацию в двумерном пространстве удобно отобразить на диаграмме рассеяния (см. рис.12).

Рис.12. Классификация с помощью самоорганизующихся карт размерности 3x3.

Видно, что данная классификация отличается от обучающего множества. Это связано с тем, что мы выбрали слишком малую размерность топологической карты. Проведение более адекватной классификации изложено в полной версии примера.

Шаг 10. Построим модель на основе радиальных базисных функций. Для построения данной модели наличие обучающего множества обязательно.

Запускаем модуль Нейронные сети. Тип задачи: Классификация, инструмент: Мастер решений (рис.13).

Рис.13. Стартовое окно модуля Нейронные сети

Шаг 11. Переменные выбираем как при построении предыдущей модели.

Рис.14. Окно выбора переменных

Шаг 12. Переходим на окно Мастера решений. На вкладке Быстрый зададим параметр N сетей равным 500 (рис.15).

Рис.15. Стартовое окно мастера решений

На вкладке Тип сети выберем только Радиальную базисную функцию (РБФ).

Рис.16. Стартовое окно мастера решений, вкладка Тип сети

Оставляем остальные параметры по умолчанию и нажимаем OK.

Шаг 13. Результаты классификации показаны на диаграмме рассеяния (рис.17).

Рис.17. Классификация с помощью РБФ

Матрица классификации приведена на рис.18.

Рис.18. Статистика классификации

Итак, построена модель для проведения нелинейной классификации двух множеств. Алгоритм построения модели может быть распространен и на классификацию множеств большей размерности.


    e-mail    eiioaeou контакты   обратная связь   карта сайта © StatSoft Russia 2012
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.