StatSoft Russia
   главная       о компании       продукты       консалтинг       отрасли       ресурсы       порталы       VIP   

Кластер-методы

Пример использования кластреного анализа STATISTICA в автостраховании

Методы кластерного анализа применяются всякий раз, когда не обходимо преобразовать «горы» информации в наглядные структуры, т.е. сократить число значений номинально шкалированного фактора (марка автомобиля, род предприятия, почтовый индекс, географический регион и т.д.).

За счет объединения схожих значений фактора в классы увеличиваются объемы опорных статистических выборок.

Индексы i, k обозначают номера двух любых (классов) значений фактора, vi, vk – соответственно, объемы i-го и k-го классов (число полисо-лет или совокупная страховая сумма), - оценки математического ожидания убытка на один полисо-год или ставки убытка.

По методу Уорда сначала вычисляются расстояния dik между всеми значениями фактора. Затем объединяются два значения с наименьшим расстоянием dik и рассчитываются расстояния от всех остальных значений до вновь образовавшегося класса. Далее снова объединяются два значения (или класса) с наименьшим расстоянием dik и т.д. до образования желаемого числа классов (агломеративный подход).

2. Представление dik в виде  позволяет понять, что при одинаковой разнице оценок  расстояние dik между классами большего объема больше, чем между классами малого объема. Это логично: при малых объемах классов оценки менее точны и, в силу случайности, могут сильнее отличаться, чем при больших объемах, даже если истинные математические ожидания  в обоих случаях, одинаково удалены друг от друга.

Таким образом,  множитель приглушает влияние выбросов в мелких группах. Если для дисперсии нормированного убытка Zi предположить модель Var(Zi)=  с одинаковым для всех классов параметром , то знаменатель  с точностью до множителя  составит , и все dik при нулевой гипотезе  будут в приближении одинаково распределены.

3. Расстояние сk следует предпочесть расстоянию dik, когда различие дисперсий нормированных убытков (и, следовательно, ) по классам обусловлено не только различием объемов, но и различием параметра  (то есть Var(Zi)= ).

В этом случае расстояния сik имеют примерно одинаковое распределение, чего уже нельзя сказать о dik. Мера cik препятствует объединению классов с малым рассеянием нормированных убытков, несмотря на малое расстояние между оценками , и способствует объединению классов с сильно различающимися значениями при большом рассеянии нормированных убытков.

4. При заданной модели распределения (например,Zi ~ Normal( ) с известным ) вычисляется распределение величины dik при нулевой гипотезе .

Тогда dik представляет собой статистику критерия для проверки гипотезы одинаковых математических ожиданий. Процесс кластеризации прекращается, если при заданной границе значимости (например, 95%) нулевая гипотеза отвергается для всех проверяемых пар классов.

Пример использования кластреного анализа STATISTICA в автостраховании

вернуться к оглавлению


    e-mail    eiioaeou контакты   обратная связь   карта сайта © StatSoft Russia 2012
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.