Общие линейные модели - Вводный обзор

Задача множественной регрессии

Общую линейную модель можно рассматривать как расширение линейной множественной регрессии для случая одной зависимой переменной, и понятие множественной регрессионной модели является фундаментом к пониманию общей линейной модели. Главная задача множественной регрессии (этот термин был впервые использован Пирсоном в 1908) заключается в определении взаимосвязи между несколькими независимыми переменными (предикторами) и зависимой переменной. Например, риэлтор может собрать данные о размере дома, числе комнат, среднем доходе и рейтинге местоположения жилья. На основе этой информации можно попытаться определить, как связана цена дома с другими факторами. Например, может выясниться, что количество комнат является наилучшим предиктором цены. Также могут обнаружиться некоторые "выбросы" - например, дома которые продаются слишком дорого.

Менеджеры по кадрам могут использовать методы множественной регрессии для определения размеров выплат сотрудникам. Можно определить несколько факторов (измерений), таких как "величина ответственности" (Resp) или " число подчиненных" (No. Super). После этого аналитик обычно изучает размеры зарплат в других компаниях, а также соответствующие характеристики для различных позиций. Эта информация может использоваться в анализе множественной регрессии для построения регрессионного уравнения в виде:

Salary = .5*Resp + .8*No. Super

После того, как регрессионное уравнение определено, аналитик может легко построить график ожидаемых (предсказанных) и реальных зарплат. С помощью этого графика можно выявить тех сотрудников, которые получают недостаточное количество денег, или, наоборот, которые получают избыточный оклад.

Методы множественной регрессии широко используются, например, в социологии. Множественная регрессия позволяет аналитику получить ответы на вопросы, типа "какой наилучший предиктор для ...". Например, работники образования могут выявить наилучшие предикторы успешного поступления в высшую школу, а психологи могут изучать характеристики человека.

Вычислительные методы решения уравнения множественной регрессии

Одномерная поверхность в двумерном пространстве - это прямая, определяемая уравнением Y=b0+b1X. Согласно этому выражению, переменная Y может быть представлена как функция константы (b0) и коэффициента наклона (b1), умноженного на значение переменной X. Константу иногда называют свободным членом, коэффициент наклона - коэффициентом регрессии. Например, индекс GPA можно оценить как 1+.02*IQ. Поэтому, зная, что студент имеет коэффициент IQ равный 130, можно ожидать, что его коэффициент GPA будет равен 3.6 (поскольку, 1+.02*130=3.6). В случае множественной регрессии (когда используется несколько предикторов) регрессионную поверхность нельзя отобразить в двумерном пространстве, но вычисления практически не изменяются. Например, если кроме коэффициента IQ мы будем использовать дополнительные предикторы (например, уровень мотивации, уровень самодисциплины), то сможем построить линейное уравнение, содержащее все эти переменные. В общем случае, процедура множественной регрессии оценивает линейное уравнение в виде:

Y = b0 + b1X1 + b2X2 + ... + bkXk,

где k - число предикторов. Отметим, что в этом уравнении регрессионные коэффициенты ( b1 ... bk) представляют независимые вклады каждой независимой переменной в предсказание зависимой переменной. Иначе, можно сказать, что переменная X1 коррелирована с переменной Y при условии, что все другие независимые переменные фиксированы. Этот тип корреляции называется частная корреляция (этот термин впервые был введен в Yule, 1907). Возможно, следующий пример разъяснит это понятие. Было выявлено, что существует значимая отрицательная корреляция между длиной волос и ростом человека (то есть, более низкие люди имеют более длинные волосы). На первый взгляд, данный факт может показаться странным, однако, если в уравнение множественной регрессии мы введем переменную Пол, то эта корреляция исчезнет. Очевидно, что женщины (в среднем) имеют более длинные волосы, чем мужчины, и они (в среднем) ниже мужчин. После того, как мы исключим скрытое влияние пола, зависимость между длиной волос и ростом человека исчезнет, поскольку длина волос не имеет уникального вклада в предсказание роста человека. С другой стороны, изменяя значение переменной Пол, мы получим, что частная корреляция между длиной волос и ростом человека будет равна нулю.

Регрессионная поверхность (линия - в случае простой регрессии, плоскость или другая поверхность - в случае множественной регрессии) выражает наилучшее предсказанное значение зависимой переменной (Y) для заданных значений независимых переменных (X). Однако, в действительности редко можно предсказать что-то с абсолютной точностью, и обычно существует необъясненные отклонения наблюдаемых точек от подогнанной регрессионной поверхности. Отклонение отдельной точки от ближайшей соответствующей точки на предсказанной регрессионной поверхности называется остаточным значением (или, просто, остатком). Поскольку задача линейных регрессионных процедур заключается в подгонке поверхности, которая является линейной функцией от переменных X, в соответствии с наблюдаемой переменной Y, остаточные значения наблюдаемых точек можно использовать при разработке критерия "наилучшей подгонки". В задачах регрессии поверхность вычисляется так, чтобы минимизировать сумму квадратов отклонений наблюдаемых точек от поверхности. Поэтому общая процедура иногда называется оценивание по методу наименьших квадратов.

Реальный вычисления при решении регрессионных задач можно легко выразить в терминах операций с матрицами. Предположим, что существует n наблюдаемых значений Y и n соответствующих значений для каждой из k различных переменных X. Пусть Yi, Xik и ei представляют i-ое наблюдаемое значение переменной Y, i-ые наблюдаемые значения переменных X, и i-ое неизвестное остаточное значение соответственно. Используя эти выражения, получаем, что

Модель множественной регрессии в терминах матриц можно представить как

Y = Xb + e

где b - вектор-столбец с 1 (для свободного члена) + k неизвестных регрессионных коэффициентов. Вспомним, что задача множественной регрессии заключается в минимизации суммы квадратов остатков. Регрессионные коэффициенты, удовлетворяющие этому критерию, можно найти, решив несколько нормальных уравнений

X'Xb = X' Y

Если переменные X являются независимыми (то есть, они являются неизбыточными, и матрица X'X имеет полный ранг), то существует единственное решение нормальных уравнений. Умножение обоих сторон матричной формулы на обратную матрицу к X'X дает

(X'X)-1X'Xb = (X'X)-1X' Y

или

b = (X'X)-1X' Y

Этот последний результат является одновременно простым и общим. Благодаря его простоте, можно выразить решение регрессионного уравнения в терминах только 2 матриц (X и Y) и 3 основных матричных операций: (1) транспонирование матрицы, (2) умножение матриц и (3) обращение матрицы A:

A-1AA = A

Математикам и статистикам потребовалось много времени, чтобы найти подходящий метод решения задачи регрессии.

Относительно общности модели множественной регрессии можно отметить только несколько ограничений: (1) эту модель можно использовать только для анализа одной зависимой переменной, (2) невозможно предложить метод нахождения регрессионных коэффициентов, если переменные X не являются линейной независимыми (поскольку в противном случае обратная матрица X'X не существует). Эти ограничения, однако, можно преодолеть, построив на основе модели множественной регрессии общую линейную модель.

Расширение множественной регрессии до общей линейной модели

Одна из причин, по которой общая линейная модель отличается от модели множественной регрессии заключается в разнице числа зависимых переменных, которые можно одновременно анализировать. Вектор Y из n наблюдений для одной простой переменной Y можно заменить на матрицу Y, состоящую из n наблюдений для m различных переменных Y. Аналогично, вектор регрессионных коэффициентов b для одной переменной Y можно заменить на матрицу регрессионных коэффициентов b, содержащую по одному вектору коэффициентов b для каждой из m зависимых переменных. Подобные замены приводят к модели многомерной регрессии. Необходимо подчеркнуть, что матричные формы моделей множественной и многомерной регрессии идентичны, за исключением разного количества столбцов в матрицах Y и b. Методы нахождения коэффициентов b также идентичны, для каждой из m различных зависимых переменных независимо определяются множества регрессионных коэффициентов m.

Общая линейная модель является следующим шагом по отношению к многомерной регрессионной модели. В общей линейной модели допускается использование линейных преобразований или линейных комбинаций нескольких зависимых переменных. Это расширение придает общей линейной модели важные преимущества по сравнению с регрессионными моделями. Одно из преимуществ заключается в том, что многомерные критерии значимости можно использовать, если отклики по нескольким зависимым переменным коррелированы. Отдельные одномерные критерии значимости для коррелированных зависимых переменных не являются независимыми и могут не соответствовать текущему случаю. Многомерные критерии значимости независимых линейных комбинаций нескольких зависимых переменных также способствуют анализу количества размерностей переменных отклика. Другое преимущество заключается в возможности анализа эффектов факторов с повторными измерениями. Планы с повторными измерениями, или внутригрупповые планы, обычно анализируются с использованием методов ДА. В терминах общей линейной модели можно построить и протестировать значимость линейных комбинаций откликов, отражающих эффект с повторными измерениями, используя одномерный или многомерный подход к анализу повторных измерений.

Вторая важная причина, по которая общая линейная модель сильно отличаются от модели множественной регрессии, заключается в возможности решения нормальных уравнений при условии, что переменные X не являются линейно независимыми, и обратная матрица для X'X не существует. Избыточность переменных X может быть второстепенной (например, два предиктора могут коррелировать между собой на маленьком множестве данных), случайной (например, в анализе могут присутствовать две копии одной и той же переменной) или спланированной (например, в анализе могут использоваться индикаторы с точно противоположными значениями). Нахождение регулярной обратной матрицы для матрицы с неполным рангом аналогично нахождению обратного значения для 0. Естественно, подобного значения не существует, т.к. делить на 0 нельзя. Эта задача решается в общей линейной модели с помощью обобщенной обратной матрицы X'X при решении нормальных уравнений. Обобщенная обратная матрица - это матрица A, которая удовлетворяет равенству

AA`A = A.

Для выбранной матрицы A существует единственная обратная матрица, которая совпадает со стандартной обратной матрицей, только если матрица A имеет полный ранг. Обобщенную обратную матрицу можно вычислить с помощью простого обнуления элементов с избыточных строках и столбцах матрицы. Предположим, что матрица X'X с r неизбыточными столбцами имеет вид

где A11 - матрица размером r*r с рангом r. Таким образом существует стандартная обратная матрица для A11, и обобщенная обратная матрица для X'X имеет вид

где каждая 0 (нулевая) матрицы состоит из одних 0 (нулей) и имеет ту же размерность, что и соответствующая матрица A.

На практике частная обобщенная обратная матрица X'X вычисляется с использованием оператора выметания (Dempster, 1960). Обратная обобщенная матрица, называемая g2 обратная, имеет важно свойство, которое заключается в разделении или переупорядочивании столбцов матрицы X'X так, чтобы матрица была обращена "на месте".

Существует бесконечно много обобщенных обратных матриц для матрицы X'X с неполным рангом. Поэтому существует бесконечно много решений нормальных уравнений. Это может усложнить понимание природы взаимосвязей между предикторами и зависимыми переменными, поскольку регрессионные коэффициенты могут изменять в зависимости от конкретной обобщенной матрицы. Однако, это не должно смущать вас, так как многие результаты, полученные в рамках общей линейной модели, обладают свойством инвариантности.

Рассмотрим простой пример, иллюстрирующий одно из важных свойств инвариантности при использовании обобщенных обратных матриц в общей линейной модели. Если оба предиктора Мужчина и Женщина с противоположными значениями используются в анализе для представления Пола, легко понять, какой предиктор является избыточным (например, Мужчина, или, наоборот, Женщина). Не имеет значения, какой предиктор будет обозначен как избыточный, не имеет значения, какая соответствующая обобщенная обратная матрица используется при решении нормальных уравнений, и не имеет значения, какое итоговое регрессионное уравнение будет использоваться для вычисления предсказанных значения для зависимых переменных 0 предсказанные значения и соответствующие остатки для мужчин и женщин не изменятся.

Сигма-ограниченная и сверхпараметризованная модель

По сравнению с моделью множественной регрессии, которая обычно используется в тех случаях, когда переменные X являются непрерывными, общая линейная модель часто применяется при анализе любых планов дисперсионного анализа с категориальными предикторами, или любых планов ковариационного анализа с категориальными и непрерывными предикторами, а также в многомерных регрессионных планах с непрерывными предикторами. Например, пусть переменная Пол является переменной с двумя уровнями. Существует два основных метода, согласно которым переменная Пол может быть перекодировано в один или несколько предикторов для анализа с использованием общей линейной модели.

Сигма-ограниченная модель (кодирование категориальных предикторов). Используя первый метод, мужчинам и женщинам можно присвоить любые два различающихся значения одного простого предиктора. Значения этого результирующего предиктора будут представлять количественные различия между мужчинами и женщинами. Значения, обозначающие членство в одной из двух групп выбираются не случайно, а с учетом облегчения последующей интерпретации регрессионного коэффициента, соответствующего этому предиктору. Согласно одному из широко используемых способов кодирования, наблюдениям в двух группах присваиваются значения 1 или -1, поэтому, если регрессионный коэффициент для этой переменной является положительным, то группа, закодированная с помощью значения 1, будет иметь большое предсказанное значение (то есть, большое групповое среднее) для зависимой переменной, а если получен отрицательный регрессионный коэффициент, то группа, закодированная значением -1, будет иметь большое предсказанное значение зависимой переменной. Дополнительное преимущество заключается в том, что каждая группа кодируется значением, равным по модулю 1. Это помогает интерпретировать величину разностей предсказанных значений между группами, поскольку регрессионные коэффициенты отражают величины изменения зависимой переменной при изменении предиктора на единицу. Этот способ кодирования называется сигма-ограниченной параметризацией, поскольку для обозначения групп используются значения, которые в сумме равны нулю.

Отметим, что сигма-ограниченная параметризация категориальных предикторов обычно приводит к матрице X'X, которая не требует обобщенной обратной матрицы для решения нормальных уравнений. Потенциальная информация об избыточности, такая как пол, понижает полный ранг, создавая количественные контрасты, представляющие различия между характеристиками.

Сверхпараметризованная модель (кодирование категориальных предикторов). Вторым методом перекодировки категориальных предикторов является метод индикатора. Согласно этому методу отдельные предикторы, закодированные для каждой группы, определяются с помощью категориального предиктора. Например, присвоим женщинам значение 1, а мужчинам значение 0 в первом категориальном предикторе, определяющим членство в группе Женщины. Аналогично, присвоим мужчинам значение 1, а женщинам значение 0 во втором категориальном предикторе, определяющим членство в группе Мужчины. Отметим, что подобный метод кодирования категориальных предикторов всегда приводит к матрице X'X с избыточными столбцами, и поэтому требуется использовать обобщенную обратную матрицу при решении нормальных уравнений. Этот метод часто называется сверхпараметризованной моделью для представления категориальных предикторов, поскольку его результат во многих столбцах в матрице X'X является необходимым при определении взаимосвязи между категориальными предикторами и откликами зависимых переменных.

Общая линейная модель может использоваться при выполнении анализов с категориальными предикторами, которые кодируются с использованием одного из двух основных методов кодирования.

Результаты вычислений

Чтобы завершить обсуждение методов, с помощью которых расширяются общие линейные модели и обобщаются регрессионные методы, общую линейную модель можно представить как

YM = Xb + e

Здесь Y, X, b и e - те же величины, которые рассмотрены в контексте многомерной регрессионной модели, а M - матрица коэффициентов (Mat m x s ), определяющих s линейных преобразований зависимой переменной. Нормальное уравнение имеет вид

X'Xb =X' YM

а решением этого нормального уравнения будет

b = (X'X)`X' YM

Если в матрице X'X содержатся избыточные столбцы, то в качестве обратной матрицы X'X подразумевается обобщенная обратная матрица.

Анализ линейных комбинаций составной зависимой переменной, метод обработки избыточных предикторов, перекодировка категориальных предикторов и главные ограничения множественной регрессии компенсируются за счет общей линейной модели.




(c) Copyright StatSoft, Inc., 1984-2003
STATISTICA является торговой маркой StatSoft, Inc.