Теоретические основы анализа данныхЗначимость коэффициента корреляцииПусть r обозначает выборочный коэффициент корреляции, полученный по извлеченным из двумерного нормального распределения парам наблюдений (x1, y1),…,(xn, yn). Коэффициент корреляции Имеем следующую оценку коэффициента корреляции по исходным данным:
где Пусть нам нужно проверить, коррелированны x и y между собой или нет. Соответствующая нулевая гипотеза имеет вид:
Очевидно, достаточно большое по абсолютной величине значение величины Возникает вопрос. Насколько большое должно быть
абсолютное значение величины Для того чтобы проверить
гипотезу, мы должны знать распределение величины Собственное распределение
величины
При нулевой гипотезе выборочное распределение этой статистики есть распределение Стьюдента с n-2 степенями свободы. Подробнее о распределении Стьюдента Большие абсолютные значения r отвечают большим абсолютным значениям t, а поскольку выборочное распределение t симметрично относительно точки 0 то уровень значимости можно определить следующим образом:
Где Т починяется распределению Стьюдента с n-2 степенями свободы, а значение величины t вычисляется в соответствии с формулой (2). Приведем классическое рассуждение Фишера при анализе зависимости урожая пшеницы от уровня осадков в Восточной Англии. Фишер отмечает, что выборочный коэффициент корреляции между годовым урожаем пшеницы и осенним уровнем дождей за 20 лет составил в Восточной Англии r=-0,629. Соответствующее значение t (вычисленное по формуле (2) при n=20) оказалось равным -3,433. Уровень значимости составляет Построим график функции плотности для распределения Стьюдента с 18 степенями свободы (см. рисунок 1). Иными словами, вычисление уровня значимости эквивалентно определению площади под правым и левым хвостами функции, ограниченной значениями -3,433 и 3,433.
Рисунок 1. График функции плотности распределения Стьюдента с 18 степенями свободы Для вычисления уровня значимости критерия воспользуемся Вероятностным калькулятором STATISTICA. В меня Анализ выберем Вероятностный калькулятор – Распределения. В появившемся окне (см. рисунок 2) выберем распределение t (Стьюдента). В поле для определения степеней свободы зададим 18. Значение t отметим равное 3,433. Нас интересуют как правый, так и левый хвосты функции распределения статистики критерия, поэтому поставим галочки в пунктах Двусторонняя и (1-ф.р.) Нажмем кнопку Вычислить, после чего получим интересующий нас уровень значимости р равный 0,002966.
Рисунок 2. Калькулятор вероятностных распределений Таким путем Фишер пришел к заключению о значимости связи между урожаем пшеницы и осенним уровнем дождей в Восточной Англии. Доступные таблицы значений функции распределения Стьюдента представляют собой разновидность обратных таблиц, что не позволяет легко вычислить нужную вероятность. Вместо вероятностей в таблицах приведены значения t, которые должны соответствовать наперед заданным уровням значимости. Например, таблица Фишера в книге “Statistical Methods for Research Workers” содержит значения t , отвечающие величинам SL=0.01, 0.02, 0.05, 0.1, 0.2(0.1) 0.9 Где 0.2(0.1) 0.9 – сокращенное обозначение массива чисел, заключенных в диапазоне от 0.2 до 0.9 с шагом 0.1 Для 18 степеней свободы ближайшее табулированное значение – отвечающее SL=0.01 и составляющее 2.878. Отсюда следует, что t=3.433 отвечает значение SL, которое меньше 0.01. Конечно, это значимо: доверие к нулевой гипотезе заметно подорвано, а существование корреляции можно считать установленным. В этом примере то, что мы не смогли точно определить уровень значимости (а ограничились неравенством SL<0.01), не привело к большим неприятностям. Однако если бы выборочный коэффициент корреляции r оказался равным 0.468, чему соответствует t=2.25, то таблица показала бы только что SL лежит между 0.05 (значение соответствует t=2.101) и 0.02 (значение соответствующее t=2.552). Такой результат можно было бы сформулировать так: «значимость на уровне 5%, но не на уровне 2% |
|
| Статистический Портал StatSoft | |