Основная цель

Краткий обзор понятия "критерий значимости".

Для того чтобы понять идею непараметрической статистики, следует понять идею параметрической статистики. Глава Элементарные понятия знакомит с понятием статистической значимости критерия, основанного на выборочном распределении определенной статистики (просмотрите эту главу, прежде чем продолжить чтение). Говоря кратко, если вы знаете исходное распределение наблюдаемой переменной, то можете предсказать, как в повторных выборках равного объема будет "вести себя" используемая статистика - т.е. каким образом она будет распределена. Пусть, например, имеется 100 случайных выборок, из одной популяции по 100 взрослых человек в каждой. Вычислим средний рост субъектов в каждой выборке, т.е. построим выборочное среднее. Тогда распределение выборочных средних можно хорошо аппроксимировать нормальным распределением (более точно, t распределением Стьюдента с 99 степенями свободы, см. ниже). Теперь представьте, что случайным образом извлечена еще одна выборка из числа жителей некоего города ("Вышгород"), где, по вашим представлениям, проживают люди с ростом выше среднего. Если средний рост людей в этой выборке попадает в верхнюю 95% критическую область t распределения, то можно сделать обоснованный вывод, что жители Вышгорода действительно, в среднем более высокие (чем в целом в популяции).

Действительно ли большинство переменных имеют нормальное распределение? В рассмотренном примере использовался тот факт, что в повторных выборках равного объемы средние значения (роста людей) будут иметь t распределение (с определенным средним и дисперсией). Однако это верно лишь, когда рассматриваемая переменная (рост) имеет нормальное распределение. Для многих изучаемых переменных невозможно сказать с уверенностью, что это действительно так. Например, является ли доход нормально распределенной величиной? - скорее всего. Случаи редких болезней не являются нормально распределенными в популяции, число автомобильных аварий также не является нормально распределенным, как и многие переменные, интересующие исследователя.

Объем выборки. Другим фактором, часто ограничивающим применимость критерия, основанного на предположении нормальности, является объем или размер выборки, доступной для анализа (размер выборки; n). До тех пор пока выборка достаточно большая (например, 100 или больше наблюдений), можно считать, что выборочное распределение нормально, даже если вы не уверены, что распределение переменной в популяции является нормальным. Тем не менее, если выборка очень мала, то эти критерии (основанные на предположении нормальности) следует использовать только при наличии уверенности, что переменная действительно имеет нормальное распределение. Однако нет способа проверить это предположение на малой выборке.

Проблемы измерения. Использование критериев, основанных на предположении нормальности, кроме того, ограничено точностью измерений. Например, рассмотрим исследование, в котором средний балл успеваемости (GPA) является основной переменной. Можно ли сказать, что средняя успеваемость студента A в два раза выше, чем успеваемость студента C? Является ли различие между средним баллом студентов B и A сравнимым с различием между студентами D и C? GPA является грубой мерой, позволяющей только ранжировать студентов в порядке "хороший" - "плохой". Эта общая задача измерений обычно обсуждается в учебниках по статистике в терминах типов измерений или шкалы измерения. Не вдаваясь в детали, отметим, что наиболее общие статистические методы, такие как дисперсионный анализ t-критерий), регрессия и т.д. предполагают, что исходные измерения выполнены, по крайней мере, в интервальной шкале, в которой интервалы можно разумным образом сравнивать между собой (например, B минус A равняется D минус C). Тем не менее, как в данном примере, такие предположения часто неестественны, и данные скорее просто ранжированы (измерены в порядковой шкале) или упорядочены, чем измерены точно.

Параметрические и непараметрические методы. Надеемся, что после этого введения становится ясной необходимость статистических процедур, позволяющих обрабатывать данные "низкого качества" из выборок малого объема с переменными, про распределение которых ничего не известно. Непараметрические методы как раз и разработаны для того, чтобы использовать их в ситуациях, когда исследователь ничего не знает о параметрах исследуемой популяции (отсюда и название непараметрические). Говоря более специальным языком, непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины. Поэтому эти методы иногда также называют (более подходящим термином) свободными от параметров или свободно распределенными методами.




(c) Copyright StatSoft, Inc., 1984-2003
STATISTICA является торговой маркой StatSoft, Inc.