Введение в теоретические основы Общего Дисперсионного Анализа.
Общие идеи планирования экспериментов.
Наилучшее линейное оценивание в регрессионных моделях.
Наилучшее линейное оценивание в вырожденном случае.
Планирование оценивания параметров в линейных регрессионных
моделях.
Численные методы построения оптимальных планов.
Избранные вопросы дисперсионного анализа.
Симметричные планы эксперимента дисперсионного анализа.
Список рекомендованной литературы.
Регрессионные задачи - категория задач, где цель состоит в том, чтобы оценить значение непрерывной выходной переменной по значениям входных переменных.
Введение.
В настоящее время происходит резкий рост прикладных и теоретических исследований по планированию и анализу регрессионных экспериментов. Вместе с тем, заметен недостаток учебной литературы, в которой этот предмет освещается как математическая дисциплина.
Нами будет рассматриваться следующая модель: со случайными ошибками измеряется
функция, зависящая линейно от вектора
неизвестных параметров, и зависящая от переменных х, которые
по выбору
экспериментатора
могут принимать значения из некоторого допустимого множества Х.
Целью эксперимента является обычно либо 1) оценка всех или некоторых параметров
или функций от них, либо 2) проверка некоторых
гипотез о параметре
. К задаче 2) сводится, в
частности проблема выбора одной из нескольких возможных моделей
![]()
Для этого надо образовать общую модель
и проверить гипотезы
Для обработки результатов наблюдений еще в XIX веке Лежандр и Гаусс предположили метод наименьших квадратов (МНК). Гаусс привел несколько обоснований этого метода. Ему и А.А. Маркову (старшему) принадлежит теорема о том, что оценки МНК являются наилучшими (среди несмещенных) линейными оценками. Для проверки гипотез Р. Фишер в 1925 г. предложил F-критерий, оптимальные свойства которого были установлены А. Вальдом и другими авторами значительно позже.
Исторически первое направление планирования эксперимента было связано с агробиологическими
применениями дисперсионного анализа. В этом случае функция
зависит от вектора х переменных (факторов) с конечным
числом возможных значений каждого фактора и комбинаций значений разных факторов.
Алгебраическими и комбинаторными методами были построены интуитивно привлекательные
планы, одновременно и сбалансированным образом изучающие влияние на возможности
большего числа факторов. Впоследствии было доказано, что построенные планы оптимизируют
некоторые естественные характеристики оценок МНК.
Начало систематическому изучению планирования эксперимента положила в 1935 г. книга Р. Фишера, показавшая, что рациональное планирование эксперимента дает не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений.
Общая идея планирования эксперимента состоит в следующем. Исходя из цели эксперимента,
формулируется критерий оптимальности плана эксперимента. Под планом эксперимента
понимается совокупность значений, задаваемых переменной х
в экспериментах. Как правило, оценки параметров
ищут по МНК, а гипотезы о параметрах
проверяют с помощью F-критерия Фишера, ввиду оптимальных
свойств этих методов. В обоих случаях при этом оказывается естественным выбирать
в качестве критерия оптимальности плана с заданным числом экспериментов некоторую
функцию от дисперсий и коэффициент корреляции оценок МНК.
Под влиянием приложений в химии и технике развивалось планирование эксперимента по поиску оптимальных условий протекания того или иного процесса. По существу, методы, используемы при этом являются модификацией обычных численных методов поиска эксперимента с учетом случайных ошибок измерений.
Эффективность рационального планирования растет при увеличении размерности вектора х. Однако одновременно увеличивается число необходимых экспериментов. Поэтому важную роль в таких случаях приобретают отсеивающие эксперименты, в которых нужно выделить компоненты вектора х, сильнее всего влияющую на функцию.
Предположим, что между величинами
и y имеется функциональная связь
вида
![]()
где функции
- известны, а
вектор параметров
неизвестны.
Чтобы определить параметры
в точках
происходят измерения значений
y.
Но эти измерения производятся не точно. Мы предполагаем, что значения
, которые наблюдаются в точках
,
связаны с этими точками следующим образом
(1)
и для случайных ошибок
(2)
- символ Кронекера.
Введем матрицу эксперимента
Обозначим через
,
.
Тогда уравнения (1) можно записать в векторной форме
(3)
Условия (2) для вектора случайных ошибок имеют вид
(4)
I - единичная матрица. Здесь и в дальнейшем через
обозначается дисперсионная матрица случайного вектора е:

Введем еще несколько обозначений. Пусть
- мерное евклидово пространство. Для любого
пусть
- евклидова норма. Пусть
,
- i-ый столбец матрицы F,
- подпространство
, натянутое на вектора
,
- ортогональное дополнение к
в
.
При известной матрице эксперимента F и известных значениях
y для оценивания параметров
мы будем использовать метод наименьших квадратов (МНК), который в качестве оценки
параметров
предлагает брать
такое
, что
(5)
Если
удовлетворяет (5), то
пишут
Оценка МНК имеет очень простую геометрическую интерпретацию. Величина
- евклидово расстояние от вектора
до вектора
. Нам нужно найти
такие
, чтобы вектор
был наименее удален от вектора y. Для таких
как известно,

где
- проекция y
на
.
Предположим, что
. Это означает,
что векторы
- линейно независимы.
В этом случае свойства оценок МНК описываются нижеследующей теоремой.
Теорема 1. 1) Из условия
, эквивалентного системе уравнений (системе нормальных уравнений)

однозначно находится оценка
(она и называется оценкой МНК вектора
).
2)
.
3) Для любой несмещенной
,
линейной по y оценки
выполнено:
.
Определение. Пусть А - симметричная
матрица размера
Если для любого
р-мерного вектора а ,
,
то будем говорить, что
.
Определение. Матрица
, входящая в условие 2) теоремы 1 называется информационной
матрицей.
Предположим теперь, что
В этом случае
- столбцы
матрицы F - линейно зависимы. И значения
для которых
![]()
т.е. значения
такие,
что
![]()
не определяются единственным образом. Оценка МНК не единственна, но
всегда существует, что следует из предыдущего равенства.
Лемма 1. Оценки МНК являются решением системы нормальных уравнений
![]()
Доказательство.

На вектора
достигается
минимум
, если
![]()
В векторной форме эта система уравнений имеет вид
![]()
Определение. Будем называть функцией, допускающей оценку (ФДО), такую
линейную комбинацию
неизвестных
параметров
для которой
существует несмещенная линейная по y оценка. Т.е. существует
,
для которой
![]()
Лемма 2.
- ФДО
, для некоторого
.
Доказательство. Для всех
справедлива
цепочка равенств
![]()
Отсюда и следует, что
![]()
Для ФДО справедлива следующая теорема.
Теорема 2. (Теорема Гаусса-Маркова). Если
есть ФДО, а
- любое решение
системы нормальных уравнений, то
(которое
называется оценкой МНК для
)
не зависит от выбора
и
имеет наименьшую дисперсию среди всех линейных по y несмещенных оценок
.
Как было показано, дисперсионная матрица
оценок
метода наименьших квадратов (ОМНК) для линейных регрессионных моделей не зависит
ни от неизвестных параметров
,
ни от результатов измерений, а определяются полностью числом измерений
и точками, в которых эти измерения были проведены. Поэтому, точность
(дисперсионная матрица) этих оценок в эксперименте, состоящем из N измерений
в точках может быть вычислена до проведения эксперимента.
Будем сначала через обозначать план эксперимента, состоящий из N измерений в
точках
может быть вычислена
до проведения эксперимента.
Рассмотрим следующую функцию от
,
так называемую функцию потерь
где Ф - некоторая функция от дисперсионной матрицы
(ОМНК),
N - число измерений, с - константа (стоимость одного измерения).
Тогда до проведения эксперимента можно пытаться найти план
минимизирующий ![]()
Для этого нужно минимизировать
при
каждом фиксированном N (обозначим этот минимум через
).
А затем нужно находить N, для которого
- минимально.
Для упрощения ситуации мы будем в дальнейшем предполагать, что стоимость одного
эксперимента
. Тогда задача
нахождения оптимального плана эксперимента сводится к нахождению минимума ![]()
Рассмотрим итерационные процедуры нахождения Ф - оптимальных планов. Мы начнем
с общей задачей минимизации гладкой функции на выпуклой гладкой области.
Для поиска экстремума функции обычно используются градиентные методы. Различные
градиенты процедуры отличаются друг от друга деталями.
Рассмотрим один параметр такой процедуры. Начиная с точки
найдем
градиент
функции
в
этой точке и будем двигаться по направлению противоположному градиенту с шагом
в точку
Если
то эта процедура
повторяется, начиная с точки ![]()
В противоположном случае, т.е. если
то мы уменьшаем шаг
в
раз и опять повторяем
процедуру, начиная с точки ![]()
Для выпуклой функции
на
имеющей ограниченную
вторую производную, последовательность точек
,
построенная таким образом, сходится к точке х, для которой ![]()
Дисперсионный анализ можно рассматривать как частный случай регрессионного анализа. Регрессионный анализ служит для получения количественного уравнения исследуемой экспериментальной зависимости от количественных факторов. Если факторы имеют качественный характер (вид сырья, способ обработки и т.д.), то сохраняют смысл только некоторые виды зависимости от них (линейные члены, попарные произведения и т.д.), которые могут качественно интерпретироваться как эффекты факторов и их взаимодействие на составляющие, называют дисперсионным. Спецификой модели объясняется то, что основной целью дисперсионного анализа становится проверка некоторых гипотез о неизвестных параметрах.
Начнем с изучения простейшего случая дисперсионного анализа - однофакторного
анализа. Рассмотрим следующую задачу. Предположим, имеется
одномерных
популяций. Пусть эти популяции нормально распределены, т.е. i-ая популяция распределена
нормально со средним значением
и
дисперсией ![]()
Пусть имеются независимые выборки объемов
из
соответствующих популяций:
- выборка из i-ой популяции.
Имеем:
![]()
где,
- независимые
случайные величины и ![]()
Введем следующие обозначения:
![]()
![]()
![]()



- матрица размера
Очевидно,
Тогда уравнения (1)
в матричной форме могут быть записаны следующим образом ![]()
Для нахождения ОМНК
параметров
в регрессионной модели (2) нужно минимизировать по
выражение
этого выражения
приводит к системе нормальных уравнений
![]()
решение которой являются
![]()
Предположим, что мы хотим проверить гипотезу (обозначим ее буквой Н) о том, что
![]()
Если верна гипотеза Н, то система уравнений (1) может быть записана в матричной форме в виде
![]()
где матрица F размера устроена следующим образом

и
![]()
В этом случае решением системы нормальных уравнений является
![]()
Для проверки гипотезы Н будем пользоваться F - критерием.
Если верна гипотеза Н, то статистика
![]()
имеет
распределение
Поясним немного содержательный смысл величин ![]()
По определению
![]()

Из этих формул видно, что
является
взвешенной мерой разброса выборочного среднего в р популяциях, а
-
суммарный внутриклассовый разброс.
В других случаях дисперсионного анализа более подходящей параметризацией является
следующая
![]()
- независимы и нормально
распределены с параметрами
и
![]()
Эта параметризация наглядно может быть проиллюстрирована следующим образом.
Пусть имеется
уровней
некоторого фактора и результат j-го эксперимента при i-м значении
фактора есть
![]()
где
- случайная ошибка
эксперимента,
- некоторое
среднее значение,
- эффект
i-го уровня фактора.
Модель (5) хоть и не дает возможность однозначно оценить все неизвестные параметры,
но она широко распространена среди экспериментаторов из-за наглядности понятия
среднего эффекта
и эффектов
различных уровней
.
Чтобы избежать неоднозначности оценок параметров модели (5) обычно накладывают дополнительные условия на отыскиваемые оценки. Например, считают, что для модели (5) должно выполняться
![]()
(сумма отклонений эффектов от среднего равна нулю). Но так же естественно налагать несколько иное условие:
![]()
(взвешенная сумма эффектов равна нулю), где
-
число завершенных экспериментов на i-м уровне. Мы видим, что дополнительные
условия также неоднозначны.
В действительности, как мы увидим позже неоднозначность оценок параметров модели (5) несущественна, так как в задачах такого типа обычно не нужны оценки параметров. Результаты экспериментов используются лишь для проверки некоторых гипотез о параметрах, среди которых наиболее употребительны гипотезы вида
![]()
Для проверки таких гипотез нужно оценить только некоторые линейные комбинации неизвестных параметров.
Предположим два фактора А и В изменяются в эксперименте или в
рассматриваемой совокупности условий. Например, различные растения (А)
были посажены на разных участках (В). Если при этом имеется
растений
и
участков, то
,
называются соответственно
уровнями фактора А
и
уровнями фактора В.
Уровни могут описывать как качественную классификацию (например, виды растений),
так и количественную. В таких двухфакторных экспериментах наблюдения могут быть
расположены в виде двухфакторной таблицы,
строк которой соответствуют уровням фактора А, а
столбцов - уровням фактора В. В i,j- ю ячейку записывают наблюдения,
полученные при одновременном исследовании факторов А и В соответственно
на i и j- м уровне. В каждой (i,j)- ой ячейке может проводится
наблюдений.
Результаты каждого наблюдения в ячейке ![]()
Если наблюдения в (i,j)-ой ячейке являются случайной выборкой из совокупности, соответствующей этой ячейке, то можно говорить о математическом ожидании и дисперсии ячейки. Пусть - математическое ожидание (i,j)-ой ячейки. Результаты наблюдений могут быть представлены в следующем виде
![]()
где,
- независимые нормально
распределенные случайные величины, ![]()
В приложениях часто используется следующая параметризация этой модели.
- среднее значение i-го
уровня А записывается в виде
![]()
а
- среднее значение
j-го уровня фактора В записывается в виде

Будем через
![]()
обозначать генеральное среднее.
Главный эффект i-го уровня фактора А определяется как превышение среднего i-го уровня над генеральным средним
![]()
Аналогично эффект i-го уровня фактора В определяется как
![]()
Отметим, что
![]()
Главные эффекты и называются также эффектом i-ой строки и j-го
столбца.
Если определять главный эффект уровня А специально по отношению к j-му
уровню В, то естественно определить его как превышение
над
средним j-го столбца, т.е.
![]()
Главный эффект i-го уровня А, определенный выше, является фактически средним от (7) по столбцам
![]()
Превышение (7) над своим средним называется взаимодействием i-го уровня фактора А с j-м уровнем фактора В
![]()
Мы будем говорить о случае отсутствия взаимодействия, если все
Случай отсутствия взаимодействия называют также случаем аддитивности эффектов.
Будем теперь считать, что имеется три фактора А, В, С. Каждый фактор
имеет I, J, K число уровней соответственно. В каждой ячейке ijk
производится не более одного измерения.
Рассмотрим теперь следующую аддитивную трехфакторную модель
![]()
Один из факторов А обычно выделяется и называется типом условий, остальные факторы интерпретируются как блоки, изображаемые на плоскости, причем i - номер строки, k - номер столбца.
Планом эксперимента в дисперсионном анализе мы называем расположение измерений
в ячейках дисперсионного анализа. Для двухфакторной модели этот набор чисел
, трехфакторной ![]()
Опишем теперь симметричные расположения экспериментов, которые широко применялись
экспериментаторами еще до того, как была доказана их оптимальность. Это так
называемые симметричные планы.
Для двухфакторной модели симметричные планы называются еще сбалансированными
неполными блоками. Они определяются следующими условиями:
1.
- в каждой ячейке
не более одного наблюдения.
2. ![]()
- число наблюдений
над каждым уровнем фактора А и В соответственно не зависит от
номера уровня этого фактора.
Имеется небольшое обобщение этих планов за счет замены 1) на 1`)
если B/I - целое число и равно одному из ближайших к B/I целых
чисел, если B/I- не целое число.
Дж. Кифер, предположивший это обобщение, назвал такие планы сбалансированными блоками.
Для трехфакторной дисперсионной модели используются, так называемые, квадраты Юдена. Квадраты Юдена называются планы эксперимента такие, что
1. ![]()
2. Одно из чисел
или
- целое.
3. Если рассматривать строку (или столбец) как отдельный блок, то получится сбалансированный неполный блок. Иными словами
![]()
Если вместо условия 3) выполняется условие 3`)строка (или столбец), рассматриваемая как отдельный блок, является сбалансированным блоком, то полученный план называется обобщенным планом Юдена.
Частным случаем квадрата Юдена являются латинские квадраты, когда
В латинских квадратах являющихся планами эксперимента для трехфакторной модели
с факторами А, В, С имеющими одно и то же число уровней, в каждой строке
и в каждом столбце, соответствующих уровням В и С имеется ровно
одно значение каждого уровня фактора А.

На рисунке приведен пример латинского квадрата, где
уровни факторов А, В, С соответственно. Согласно приведенному латинскому
квадрату эксперименты проводятся при следующих комбинациях значений уровней
факторов А, В,С:
![]()
т.е. вместо
возможных
комбинаций факторов в плане эксперимента, задаваемой описанным латинским квадратом,
исследуется лишь
комбинации.
Кроме сравнительно малого число экспериментов симметричные планы обладают еще тем замечательным свойством, что для них значительно облегчается обработка наблюдений, так как нормальные уравнения для таких планов обычно очень просты.
Э. И. Бежава, М.Б. Малютов Введение в теорию планирования регрессионных экспериментов, Московский государственный институт электронного машиностроения, Темплан 1983. В учебном пособии исследуется планирование и анализ линейных регрессионных экспериментов.
Ивченко Г.И., Медведев Ю.И. Математическая статистика, Высшая школа, 1992.
В пособии на современном научном уровне изложены основные разделы статистической
теории.
Боровиков В.П. Популярное введение в программу STATISTICA, Компьютер Пресс
1998. Книга, посвященная анализу данных, построению зависимостей, классификации
и прогнозированию в системе STATISTICA.
Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка
данных в среде Windows, Филинъ 1998. Справочное и учебное пособие по системе
STATISTICA.
Боровиков В.П. STATISTICA, искусство анализа данных на компьютере, Питер
2001. В книге изложена концепция и технология современного анализа данных
на компьютере. На основе элементарных понятий описываются углубленные методы
анализа данных, иллюстрированные примерами из экономики, маркетинга, рекламы,
бизнеса, медицины, промышленности и других областей.
Боровиков В.П, Ивченко Г.И. Прогнозирование в системе STATISTICA в среде
Windows, Финансы и статистика 1999. Учебное пособие, содержащее описание
практических методов и приемов прогнозирования и изложение теоретических основ.
Розанов Ю.А. Теория вероятностей, случайные процессы и математическая статистика,
Наука 1985. Книга представляет собой единый учебный курс теории вероятностей,
случайных процессов и математической статистики. Изложение материала таково,
что книга во многих важных разделах доступна широкому кругу читателей.
Замечательным введением в элементарную статистику с разнообразными примерами
из медицины и генетики является книга Ю.Неймана Вводный курс теории вероятностей
и математической статистики, Наука, 1968 (перевод с английского).