Факторный Дисперсионный Анализ
Планы факторного ДА содержат переменные X, которые представляют комбинации различных уровней 2 или более категориальных предикторов (например, при изучении мальчиков и девочек по четырем возрастным группам можно получить план 2 (Пол) x 4 (Возрастные группы)). В частности, полные факторные планы представляют все возможные комбинации уровней категориальных предикторов. Полный факторный план с 2 категориальными предикторами A и B, каждый из которых имеет по 2 уровня, будет являться 2 x 2 полным факторным планом. Используя сигма-ограниченное кодирование, матрицу плана X можно представить как:
Необходимо прокомментировать несколько особенностей матрицы X. Отметим, что столбцы X1 и X2 представляют контрасты основных эффектов для одной переменной (то есть, A и B, соответственно), разделенной по уровням другой переменной. Столбец X3 представляет контраст между различными комбинациями уровней A и B. Отметим также, что значения X3 являются произведениями соответствующих значений X1 и X2. Такие переменные, как X3 представляют мультипликативные эффекты или эффекты взаимодействия для соответствующих факторов, поэтому можно сказать, что переменная X3 представляет 2-факторное взаимодействие A и B. Зависимость таких переменных с зависимыми переменными показывает интерактивное влияние факторов на отклики. Поэтому факторные планы предоставляют больше информации о зависимости между категориальными предикторами и откликами для зависимых переменных, чем при анализе однофакторных планов или планов с главными эффектами.
Однако, при использовании многих факторов для полных факторных планов требуется больше данных, чем можно собрать для представления всех возможных комбинаций уровней этих факторов. Кроме того, взаимодействия высокого порядка между многими факторами достаточно трудно интерпретировать. В этом случае хорошей альтернативой полному факторному плану является дробный факторный план. Например, рассмотрим 2 x 2 x 2 дробный факторный план степени 2 с 3 категориальными предикторами, каждый из которых имеет 2 уровня. Этот план может содержать главные эффекты для каждой переменной, все 2-факторные взаимодействия между тремя переменными, но 3-факторные взаимодействия включены в этот план не будут. При использовании сверхпараметризованной модели матрица плана X будет иметь вид
2-факторые взаимодействия являются эффектами с наибольшей степенью, среди всех эффектов плана.
Подготовка анализа. Этот пример использует данные, представленные в работе Milliken и Johnson (1992, p. 238). Зависимая переменная - DV, а категориальными предикторами будут A и B.

Рисунок 1. Таблица исходных данных.
Milliken и Johnson (1992) проанализировали эти данные с помощью Факторного ДА, они рассматривали главные эффекты и двухфакторные взаимодействия как случайные эффекты. Они также оценили компоненты дисперсии с помощью нескольких методов оценки.
Анализ, который провели Milliken и Johnson (1992), использует декомпозицию суммы квадратов Типа I. Сумма квадратов Типа I использует последовательное разделение полной модели сумм квадратов. На каждом шаге производится оценка регрессионных уравнений. При этом в модель добавляются новые эффекты. Согласно определению суммы квадратов Типа I, сумма квадратов для каждого эффекта определяется с помощью вычитания предсказанной суммы квадратов с эффектов в модели из предсказанной суммы квадратов для модели без включенного эффекта. После этого производятся проверки значимости для каждого эффекта при увеличении предсказанной суммы квадратов за счет добавления эффекта. Поэтому сумма квадратов Типа I иногда называется последовательной или иерархической суммой квадратов.
Результаты.
Тип I оценки компоненты дисперсии.

Рисунок 2. Таблица оценок компонент дисперсии типа I для DV.
В пределах ошибки округления эти оценки соответствуют оценкам, представленными в работе Milliken и Johnson (1992, p. 239).
Тип V оценки компонент дисперсии.
Сумма квадратов типа V включает в себя комбинацию методов, предназначенных для вычисления гипотез типа I и типа III. Будет или нет эффект удален определяется с использованием процедур типа I, а затем гипотеза проверяется для эффектов, не удаленных из модели, с использованием процедур типа III. Сумму квадратов типа V можно проиллюстрировать на простом примере. Предположим, что рассматриваются эффекты A, B, и взаимодействие A по B, и кроме того, A и B являются категориальными предикторами с 3 и 2 уровнями, соответственно. Первым в модель включается свободный член. Затем включается эффект A, и определяет количество его степенй свободы (то есть число неизбыточных столбцов для эффекта A в матрице X'X, в соответствии с выбранным свободным членом). Если количество степеней свободы A меньше чем 2 (то есть число уровней минус 1), то этот эффект удаляется из модели. После этого в модель включается эффект B, и определяется его количество степеней свободы (то есть число неизбыточных столбцов для эффекта B в матрице X'X для выбранного свободного члена и эффекта A). Если количество степеней свободы B меньше чем 1 (то есть, число степеней свободы минус 1), то этот эффект удаляется из модели. После этого в модель включается взаимодействие A по B, и определяется его число степеней свободы (то есть число неизбыточных столбцов для взаимодействия A по B в матрице X'X, для заданного свободного члена и эффектов A и B). Если число степеней свободы этого взаимодействия меньше 2 (то есть произведение числа степеней свободы его факторов при условии отсутствие пропущенных ячеек), то этот эффект удаляется из модели. Затем вычисляется сумма квадратов типа III для эффектов, оставшихся в модели. Однако, критерии значимости используют член ошибки для полной модели.
Отметим, что сумма квадратов типа V использует полученную краткую модель, в которой все эффекты имеют не меньше того числа степеней свободы, которое они имели бы без пропущенных ячеек. Это эквивалентно нахождению подплана без пропущенных ячеек такого, что суммы квадратов типа III для всех эффектов в этом подплане отражают разницу между средними наименьших квадратов.

Рисунок 3. Таблица оценок компонент типа V дисперсии для DV.
Обратите внимание на то, что согласно обоим оценкам, компоненты дисперсии для A и B будут иметь отрицательные значения. Это один из недостатков оценки компонент дисперсии, когда значения оценок часто имеют отрицательный знак. На практике отрицательные компоненты дисперсии обычно рассматриваются как указывающие на 0 (нулевую) компоненту, и следовательно не является чем-то проблематичным. Оба типа оценок согласны с тем, что взаимодействие эффектов A и B дает только одну ненулевую компоненту дисперсии в зависимой переменной (а не Ошибку).
Чтобы проверить значимость эффектов в планах, включающих случайные эффекты, ошибка должна содержать все те же самые источники случайных изменений, за исключением дисперсии интересующих нас эффектов. Это делается с помощью метода Satterthwaite синтез деноминатора (Satterthwaite, 1946), который ищет линейную комбинацию источников случайных изменений, являющиеся ошибкой при проверке значимости соответствующих эффектов. Ковариация между источниками дисперсии представляется элементами матрицы ожидаемых средних квадратов.

Рисунок 4. Матрица ожидаемых средних квадратов.
Посмотрим теперь на таблицу, содержащую коэффициенты, используемые для создания линейных комбинаций источников случайной изменчивости на основе суммы квадратов Типа V.

Рисунок 5. Таблица коэффициентов синтеза деноминатора.
Коэффициенты показывают, например, что квадрат среднего для A нужно сравнить с .996094, умноженным на квадрат среднего для взаимодействия A с B, плюс .003906, умноженное на квадрат среднего ошибки.
Чтобы проверить критерии значимости, нужно найти соотношение соответствующих квадратов среднего для F критерия и p-уровней.

Рисунок 6. Итоговая таблица смешанной модели дисперсионного анализа.
Как следует из приведенной выше таблицы, эффект взаимодействия A и B найден значимым на уровне p < .05, но ни главный эффект A, ни главный эффект на достигли B значимости, F < 1.0. Заметим также, что главный эффект A имеет дробную степень свободы деноминатора, что отражает синтезированная ошибка, используемая в проверке ее эффекта. Главный эффект B имеет 2 степени свободы деноминатора, т.к. он сравнивался только с эффектом взаимодействия A и B с 2 степенями свободы. Свободный член нельзя проверить, т.к. он имеет нулевую степень свободы для его синтезированной ошибки.
(c) Copyright StatSoft, Inc., 1984-2003
STATISTICA является торговой маркой StatSoft, Inc.