Общие линейные модели: Основные идеи, структура данных и подгонка модели

Общие линейные модели являются обобщением линейной регрессионной модели, позволяющей включать в планы (1) категориальные предикторные переменные наряду с непрерывными, (2) многомерные зависимые переменные.

Структура линейной модели строго следует из структуры данных. Массив данных должен иметь следующий вид. Для каждой пары из t=1, 2,...,n различных единиц (объектов) одинаковой природы измерены значения некоторой зависимой переменной и p объясняющих переменных. Данные организуются в виде прямоугольного массива, каждая которого соответствует единице (объекту), а каждый столбец - переменной.

Массив данных имеет следующий вид:

Переменная

t

y

x1

x2

...

xp

Объект

1

y1

x11

x12

...

x1p

2

y2

x21

x22

...

x2p

...

n

yn

xn1

xn2

...

xnp

Такой массив может быть рассмотрен либо как множество вектор-столбцов y, x1,...,xp с компонентами y=(yt) и xj=(xij), либо как матрица данных. Этот массив имеет n(p+1) элементов.

Многие наборы данных выходят за рамки этой структуры. Такими будут, например, массивы данных с пропущенными значениями, массивы с несколькими зависимыми переменными и массивы без зависимой переменной, которые используются в многомерном статистическом анализе. Предположение об однородности объектов также является некоторым ограничением. Из однородности следует, что результат анализа данных не должен зависеть от перестановки строк таблицы. Это условие, в частности, исключает из рассмотрения временные ряды, где важен порядок наблюдений, и данные, где объекты имеют различные веса. Это имеет место при анализе стратифицированных выборок. Исключается также и случай, когда объекты разбиваются на несколько кластеров.

Результаты анализа не должны зависеть от перестановки объясняющих переменных. Порядок столбцов в матрице данных не должен добавлять какую-нибудь значимую информацию.

Поскольку эти ограничения достаточно серьезны, тем более неожиданными являются мощность и гибкость приложений теории линейных моделей.

Параметрическая структура линейной модели проявляется следующим образом. Для каждого объекта ожидаемое значение зависимой переменной EYt задается выражением

или в векторной записи

Как ожидаемое значение µt, так и значение линейного предиктора зависит от номера t. Однако коэффициенты бета одинаковы для всех объектов. Подгонка модели эквивалентна оцениванию этих параметров и параметра фи.

Параметр масштаба фи не зависит от t, но теория легко может быть распространена на случай такой зависимости с помощью взвешивания, т. е. при замене фи не фи/весt. Это позволяет включить и случай нормально распределенной зависимой переменной, которая в действительности есть усредненное значение весов независимых наблюдений. Такое расширение теории до некоторой степени позволяет снять ограничения, связанные с требованием однородности объектов в матрице данных.




(c) Copyright StatSoft, Inc., 1984-2003
STATISTICA является торговой маркой StatSoft, Inc.