Факторный Дисперсионный Анализ

Планы факторного ДА содержат переменные X, которые представляют комбинации различных уровней 2 или более категориальных предикторов. В частности, полные факторные планы представляют все возможные комбинации уровней категориальных предикторов.

Пример: Межгрупповой 2 x 3 план факторного Дисперсионного Анализа.

Этот пример основан на выдуманных данных, описанных в Lindeman (1974). Предположим, что вы провели эксперимент по прохождению крысами простого "T-лабиринта." Задача крыс состояла в том чтобы научиться бежать прямо к пище, помещенной в определенном месте лабиринта, не совершая ошибок. Было три породы крыс, чьи способности прохождения T-лабиринта можно описать в терминах: умный, средний и глупый. В каждой из трех пород взяли по 4 крысы, выросших на свободе, и 4 крысы, выросших в неволе. Зависимое измерение - это число ошибок, допущенных каждой крысой при прохождении T-лабиринта.

Рисунок 1. Таблица исходных данных.

Коды 1-free и 2-restricted использованы в категориальном предикторе Envirnmt для обозначения группы, к которой относится крыса (выросшая на свободе или в неволе). Категориальные предикторы также называются группирующими переменными, переменными с кодами, или межгрупповыми факторами. Эти переменные содержат коды, которые определяют принадлежность наблюдений к определенной группе.

Во втором категориальном предикторе (Strain) заданы следующие коды: 1-bright, 2-mixed и 3-dull. На зависимую переменную оказывают влияние предикторы; в данном примере это переменная Errors, которая содержит число ошибок, допущенных каждой крысой при прохождении лабиринта.

Наш план является 2 x 3 межгрупповым факторным планом. Переменные Envirnmt и Strain являются категориальными предикторами, а Errors - зависимой переменной.

Итоги дисперсионного анализа. В приведенной ниже таблице находятся основные результаты дисперсионного анализа. Значимые эффекты (p<.05) в этой таблице выделены красным. Оба главных эффекта (Envirnmt и Strain) статистически значимы (p<.05), а двухфакторные взаимодействия не значимы (p>.05).

Рисунок 2. Таблица результатов ДА.

Теперь рассмотрим маргинальные средние для главного эффекта Envirnmt.

Рисунок 3. Таблица маргинальных средних.

Графиком по умолчанию для всех таблиц маргинальных средних является график средних. В нашем случае график довольно простой.

Рисунок 4. График средних, соответствующих условиям в свободе и в неволе.

Из графика можно сделать вывод, что крысы, выросшие в неволе, допустили больше ошибок, чем крысы, выросшие на свободе.

Теперь, посмотрим одновременно на все средние, построив график взаимодействия Environmt * Strain.

График, приведенный ниже, наглядно отображает итоговые результаты данного примера, на нем построены два главных эффекта.
Крысы, выросшие в неволе (пунктирная линия), сделали больше ошибок, чем крысы, выросшие на свободе (сплошная линия).
Крысы в группе dull допустили больше всего ошибок, затем идет группа mixed, а крысы группы bright сделали наименьшее число ошибок.

Рисунок 5. График взаимодействия Environmt * Strain.

Апостериорные сравнения средних. При просмотре предыдущего графика, может возникнуть вопрос, является ли отличие группы mixed от групп dull и bright статистически значимым. Однако, не была задана априорная гипотеза для этого отличия, следовательно, для проверки отличий средних для разных групп нужно использовать апостериорные сравнения.

Выбор критерия. Для данного примера выберем критерий Шеффе.

Рисунок 6. Критерий Шеффе.

В данной таблице приведена статистическая значимость разности между всеми парами средних. Только одна разность между группой 1 (bright) и группой 3 (dull) является статистически значимой на уровне p<.05. Следовательно, можно сделать вывод, что группа dull допускает значимо больше ошибок, чем группа bright, в то время как разница между группой mixed и остальными группами не является статистически значимой.

Проверка предположений.

Распределение зависимой переменной. В дисперсионном анализе предполагается, что зависимая переменная (внутри групп) подчиняется нормальному распределению. Рассмотрим гистограмму распределения по всем группам.

Рисунок 7. Гистограмма распределения по всем группам.

Из графика видно, что распределение по группам является мультимодальным, т.е. имеет более одного выраженного "пика." Это можно было предугадать, зная, что найдены сильные главные эффекты. Если необходимо более тщательно проверить предположение об однородности, вы можете просмотреть распределения внутри отдельных групп или построить гистограммы распределения остатков в ячейках (отклонений от средних в ячейках). Вместо этого, мы проверим более серьезные нарушения предположений ДА.

Корреляция между средним и стандартным отклонением. Отклонение от нормальности не является главным "врагом" применимости ДА; наиболее частая ошибка заключается в использовании интерпретаций эффекта, основанных на "экстремальных" ячейках в плане, изменчивость которых гораздо больше средней. С другой стороны, если средние и стандартные отклонения коррелируют в ячейках плана, то эффективность (альфа-ошибка) F-критерия значительно ухудшается, в результате, вы можете отвергнуть нулевую гипотезу с p<.05, хотя реальное p-значение, возможно, приближается к .50!  

Рассмотрим корреляции между шестью средними и стандартными отклонениями в данном плане.

Рисунок 8. График средних и стандартных отклонений.

Средние и стандартные отклонения в значительной степени коррелируют между собой. Если на результатах данного анализа основано принятие важного решения, рекомендуется дважды проверить значимые главные эффекты, используя для этого, например, непараметрические методы, которые основаны на рангах, а не на исходных значениях (и дисперсиях). В любом случае, нужно осторожно относиться к полученным результатам.

Однородность дисперсий. Проверим также однородность дисперсий. Для проверки однородности дисперсий, вы можете воспользоваться однородным критерием Кохрена C, Хартли, Бартлетта или критерием Левена, но ни один из них не покажет статистическую значимость результатов. Ниже приведена таблица результатов критерия Левена однородности дисперсий.

Рисунок 9. Таблица результатов критерия Левена однородности дисперсий.

Итоги. Кроме иллюстрации основных функциональных возможностей Общих линейных моделей, данный пример продемонстрировал, насколько важно порой получать графическое представление данных (например, строить диаграмму рассеяния средних и стандартных отклонений). Если бы вы ориентировались только на F-критерий значимости и стандартные критерии однородности дисперсий, вы упустили бы потенциально серьезное нарушение предположений, которое становится очевидным при просмотре диаграммы рассеяния средних и стандартных отклонений. В результате, вы могли бы сделать вывод, что эффекты ENVIRNMT (среда, в которой выросла крыса) и STRAIN (способности крысы) оба вносят аддитивный вклад в эффективность прохождения T-лабиринта. Тем не менее, эти данные необходимо анализировать с помощью методов непараметрической статистики, чтобы убедится в том, что статистически значимые (p) уровни, полученные в дисперсионном анализе, не завышены.




(c) Copyright StatSoft, Inc., 1984-2003
STATISTICA является торговой маркой StatSoft, Inc.