| |
Кластер-методы
Методы кластерного анализа применяются всякий раз, когда не обходимо преобразовать «горы» информации в наглядные структуры, т.е. сократить число значений номинально шкалированного фактора (марка автомобиля, род предприятия, почтовый индекс, географический регион и т.д.).
За счет объединения схожих значений фактора в классы увеличиваются объемы опорных статистических выборок.
Индексы i, k обозначают номера двух любых (классов) значений фактора, vi, vk – соответственно, объемы i-го и k-го классов (число полисо-лет или совокупная страховая сумма), - оценки математического ожидания убытка на один полисо-год или ставки убытка.
По методу Уорда сначала вычисляются расстояния dik между всеми значениями фактора. Затем объединяются два значения с наименьшим расстоянием dik и рассчитываются расстояния от всех остальных значений до вновь образовавшегося класса. Далее снова объединяются два значения (или класса) с наименьшим расстоянием dik и т.д. до образования желаемого числа классов (агломеративный подход).
2. Представление dik в виде позволяет понять, что при одинаковой разнице оценок расстояние dik между классами большего объема больше, чем между классами малого объема. Это логично: при малых объемах классов оценки менее точны и, в силу случайности, могут сильнее отличаться, чем при больших объемах, даже если истинные математические ожидания в обоих случаях, одинаково удалены друг от друга.
Таким образом, множитель приглушает влияние выбросов в мелких группах. Если для дисперсии нормированного убытка Zi предположить модель Var(Zi)= с одинаковым для всех классов параметром , то знаменатель с точностью до множителя составит , и все dik при нулевой гипотезе будут в приближении одинаково распределены.
3. Расстояние сk следует предпочесть расстоянию dik, когда различие дисперсий нормированных убытков (и, следовательно, ) по классам обусловлено не только различием объемов, но и различием параметра (то есть Var(Zi)= ).
В этом случае расстояния сik имеют примерно одинаковое распределение, чего уже нельзя сказать о dik. Мера cik препятствует объединению классов с малым рассеянием нормированных убытков, несмотря на малое расстояние между оценками , и способствует объединению классов с сильно различающимися значениями при большом рассеянии нормированных убытков.
4. При заданной модели распределения (например,Zi ~ Normal( ) с известным ) вычисляется распределение величины dik при нулевой гипотезе .
Тогда dik представляет собой статистику критерия для проверки гипотезы одинаковых математических ожиданий. Процесс кластеризации прекращается, если при заданной границе значимости (например, 95%) нулевая гипотеза отвергается для всех проверяемых пар классов.
| |