Регрессия поверхности смеси
Регрессионные планы поверхности смеси аналогичны планам факторной регрессии второй степени без свободного члена. Смеси, как следует из имени, представляют собой некоторые константы. Например, сумма долей различных ингредиентов в некотором материале всегда равна 100%. Поэтому доля одного ингредиента в материале может уменьшаться за счет увеличения долей других ингредиентов. Регрессионные планы поверхности смеси с подобными ограничениями не должны содержать свободный член. Матрица плана для подобного анализа с 3 непрерывными предикторами P, Q и R может иметь вид
Y = b1P + b2Q + b3R + b4P*Q + b5P*R + b6Q*R
Эти типы планов широко применяются в прикладных исследованиях (например, в промышленных экспериментaх).
Пример 1: Анализ регрессии поверхности смеси.
Cornell (1990) описал простой и типичный план для смеси на примере исследования средней плотности пирожков с рыбой. Слоеные пирожки содержали три слоя с разным типом рыбы: Mullet (с кефалью), Sheepshead, и Croaker. Зависимая переменная, текстура (Texture), измерялась как сила (в граммах * 10-3), требуемая для прокалывания поверхности пирожка. В эксперименте использовался симплекс-вершинный план поверхности смеси второго порядка.
В этом примере мы оценим чистую ошибку, и потерю согласия. Для критериев потери согласия требуется вычисление чистой ошибки, не учтенной в модели. Компоненты смеси в сумме дают постоянную величину; суммы пропорций компонентов разных смесей некоторого материала всегда должны быть равны 100%. Таким образом, пропорцию одного компонента можно вычислить по сумме пропорций остальных, т.е. эта информация является избыточной. Эта избыточность устраняется исключением из плана свободного члена.
Так же план поверхности смеси по умолчанию содержит дополнительные члены, помимо членов главного эффекта.
Просмотр результатов.
Критерий неадекватности. Рассмотрим таблицу критериев неадекватности, содержащую следующие результаты:

Рисунок 1. Данные критерия неадекватности.
Критерий неадекватности маргинально значим (p<.10), это означает, что линейная модель, содержащая только главные эффекты, слишком простая.
Теперь изменим анализ, задав план для квадратичной поверхности смеси.

Рисунок 2. Данные критерия неадекватности на основе квадратичной поверхности смеси.
Заметьте, что критерий неадекватности для этого плана не вычислен. Это связано с тем, что модель для поверхности смеси второго порядка исчерпала всю информацию, которую можно было получить в этом симплекс-вершинном плане второго порядка.
Смешанная модель. Результаты в таблице показывают, что модель поверхности смеси второго порядка высоко значима, p < 001. Заметьте, что число степеней свободы для смешанной модели (сс Модель) равно 5, что на один меньше, чем количество эффектов в плане (6), т.е., 3 главных эффекта плюс 3 двухфакторных взаимодействия. Это связано с тем, что критерий смешанной модели скорректирован на среднее, что приводит к уменьшению степеней свободы. Альтернативные способы вычисления значения R-квадрат описаны у Kvalseth (1985).

Рисунок 3. Данные критерия неадекватности по смешанной модели.
Регрессионные коэффициенты. Рассмотрим таблицу оценок параметров для коэффициентов регрессионного уравнения.

Рисунок 4. Данные по оценкам параметров.
Коэффициенты для всех эффектов кроме Mullet*Croaker и Sheepshd*Croaker являются значимыми. Тем не менее, из-за исключения из модели свободного члена, нужно осторожно относиться к коэффициентам для главных эффектов.
Пример 2: Анализ регрессии поверхности смеси.

Рисунок 5. Таблица исходных данных.
Верхние и нижние значения факторов. Опции в поле Перекодировать факторы (псевдокомпоненты) относятся к тому, как система STATISTICA перекодирует значения факторов для заключительного анализа (заметим, что в диалоге результатов последние всегда доступны и для непреобразованных установок факторов). А именно, программа по умолчанию всегда преобразует установки факторов в так называемые псевдокомпоненты.
x'i = (xi-Li)/(Total-L)
Здесь x'i обозначает i-ую псевдокомпоненту, xi - значения исходной компоненты, Li - ограничение (границу) для i-ой компоненты, а L - сумму всех ограничений снизу (границ) для всех компонент плана. ыЭто преобразование также описано в разделе Вводный обзор, также см. смотрите Cornell, 1990, глава 3. Коротко говоря, если имеются ограничения на факторы снизу, но план построен как стандартный симплекс-вершинный или симплекс-центроидный, то установки факторов будут перекодированы так, что окончательные результаты могут быть просмотрены и проинтерпретированы в терминах стандартных симплекс-планов (то есть как диаграммы на треугольнике).
Опции в поле Перекодировать факторы (псевдокомпоненты) позволяют вам использовать действительные мимимумы факторов для этого преобразования (вместо Li), или вы можете определить Заданные пользователем (верхние/нижние) значения факторов.
Уровень толерантности. В этом диалоге Толерантность не следует путать с уровнем толерантности, который обсуждался, например, в модуле Множественная регрессия. Он просто обозначает "проверку" корректности установок факторов, то есть, является ли константой по всем опытам сумма установок факторов. В частности, если вы вводите данные вручную, часто оказывается, что вы можете ввести .333 вместо 1/3. Разумеется, .333 точна только до трех десятичных знаков, для того, чтобы ввести значение точно, вы должны ввести после запятой бесконечный ряд троек. STATISTICA осуществит проверку на постоянность суммы плюс или минус уровень толерантности. Однако заметим, что программа всегда пропорционально корректирует значения факторов, так что они всегда суммируются к соответствующей константе точно. Таким образом, если в 3-х факторном эксперименте, где общее смеси равно 1, вы ввели значения .33, .33, .33, то программа скорректирует эти значения для каждого фактора .3333333... .
Просмотр результатов.
Вообще говоря, вам бы хотелось подогнать к данным модель, которая бы достаточно объясняла природу измерений зависимой переменной. Стандартные модели планов для смесей, перечисленные во вкладке Модель, подробно описаны в разделе Вводный обзор. Для текущего набора данных мы спланировали исследование для полиномиальной модели порядка 2. В так называемом каноническом виде квадратичная модель для смеси 3-х переменных может быть записана следующим образом:
ypred = b1*x1+b2*x2+b3*x3
+b12*x1*x2+b13*x1*x3+b23*x2*x3
Здесь bi обозначают коэффициенты, а xi - значения факторов.
Просмотр коэффициентов. Просмотрите коэффициенты квадратичной модели.

Рисунок 6. Таблица полученных коэффициентов по квадратичной модели.
Это коэффициенты, относящиеся к перекодированным значениям факторов, в нашем случае к долям (от 0 до 1), а не к процентам (от 0 до 100). Напомним, что критерии значимости для линейных эффектов факторов не являются независимыми друг от друга, поэтому их следует интерпретировать с осторожностью (поскольку значения 3-х компонент должны в сумме давать константу, имеется только 2 степени свободы для всех линейных эффектов.
Из результатов, представленных в таблице результатов, показанной выше, кажется, что взаимодействие Mullet (Кефаль) и Sheepshd (Овечья голова) (AB) статистически значимо, и его следует включать в модель.
Давайте теперь посмотрим на коэффициенты для не преобразованных компонент. В этом случае преобразование состоит всего лишь в делении значений факторов на 100 (чтобы шкалировать их в диапазоне от 0 до 1). Таким образом, результаты в этом случае должны быть подобны полученным и просмотренным выше, отличаясь только величиной коэффициентов.

Рисунок 7. Таблица полученных коэффициентов непреобразованных компонент.
Как вы видите, коэффициенты для исходных компонент отличаются только порядком величины.
Дисперсионный анализ.
Давайте теперь просмотрим Дисперсионный анализ. Будет представлено две таблицы.
Первая из них суммирует тесты статистической значимости для моделей возрастающей
сложности (то есть с возрастающим числом параметров).

Рисунок 8. Данные дисперсионного анализа 1.
Линейная модель является статистически значимой, то есть она подгоняет данные лучше, чем модель, где все параметры равны 0 (нулю). Заметим, что тест для линейных параметров имеет только 2 степени свободы, хотя предыдущие таблицы результатов показывают 3 параметра. Повторим, что, так как сумма компонент смеси должна быть постоянной, 3 параметра для простых линейных эффектов имеют только 2 степени свободы, ассоциированные с ними.
Также в этой таблице результатов показаны значения
коэффициента детерминации RІ и значения исправленных RІ. Они интерпретируются,
как в модуле Множественная
регрессия: RІ является долей дисперсии измерений зависимой переменной,
обусловленной (объясняемой) соответствующей моделью. Значения исправленных RІ
применяют к значениям RІ поправку на число членов в соответствующей модели.
Заметим, что термин доля дисперсии, обусловленной в данном контексте относится
к вариабельности предсказываемых значений зависимой переменной вокруг соответствующего
среднего, а не 0 (нуля). (Некоторые более старые программы множественной регрессии
иногда сообщают значения RІ для моделей без свободного члена как долю вариабельности
относительно начала координат, тогда как в модуле Множественная
регрессия приводятся обе статистики). Обратим внимание на улучшение
подгонки модели при добавлении параметров (когда подгоняются все более сложные
модели). В этом примере квадратичная модель обеспечивает улучшение над линейной
моделью, которое является почти статистически значимым (p=.0507). Таким образом,
следует, вероятно, рассмотреть хотя бы некоторые члены второго порядка для включения
в окончательную модель. Вторая таблица результатов дает общий критерий для всех
параметров в текущей модели.

Рисунок 9. Данные дисперсионного анализа 2.
Как вы видите, комбинированный тест относительно всех параметров квадратичной модели является высоко статистически значимым. Заметим, что критерий Потери согласия не может быть применен для данного плана, поскольку квадратичная модель исчерпывает всю информацию, которая может быть оценена с помощью этого симплекс-вершинного плана второго порядка. Если бы вы, например, подгоняли Линейную модель, тогда эта таблица результатов выглядела бы так:

Рисунок 10. Таблица результатов линейной модели.
Теперь в модели присутствуют только линейные эффекты факторов, и остаточное отсутствие согласия может быть проверено. Разумеется, оно будет идентично квадратичным эффектам, показанным в таблице результатов ранее, поскольку остаточное отсутствие согласия не обусловлено чистой ошибкой, а обусловлено квадратичными компонентами.
Диаграмма Парето эффектов. Диаграмма Парето является эффективным средством определения того, какие эффекты имеют наибольший вклад на интересующую нас зависимую переменную. Рассмотрим диаграмму Парето эффектов.

Рисунок 11. Диаграмма Парето эффектов.
Эта диаграмма показывает стандартизованные коэффициенты, отсортированные по абсолютной величине. Очевидно, что линейные эффекты факторов являются наиболее важными для определения окончательного состава рыбных паштетов.
Диаграммы поверхностей и контурные диаграммы. Мы можем визуализировать соотношения между факторами и зависимой переменной (то есть подгоняемой функцией) на треугольной диаграмме.

Рисунок 12. Диаграмма поверхности.
Вообще говоря, в треугольной диаграмме общее ограничение на смесь (все компоненты должны суммироваться к постоянной) приводит к ограниченной области, которую можно представлять треугольником. Когда вы двигаетесь вдоль одной из сторон треугольника, показанного в горизонтальной плоскости, смеси трех компонент изменяются, но их сумма всегда остается той же самой (благодаря треугольной форме фигуры в плоскости). Из графика поверхности видно, что чем больше в смеси (паштете) Mullet (Кефали), тем больше Texture (Текстура). Однако поверхность не совсем линейна, а имеет некоторую кривизну. Это, конечно, соответствует оценкам параметров (для псевдокомпонент), а также диаграмме Парето, показанной ранее.
График следа. График следа обеспечивает другой взгляд на поверхность над треугольником. Перед обзором такого графика вначале посмотрим на график, расположенный ниже, который показывает, как строится график следа. Предположим, что вы проведете прямые из вершин треугольника к его противоположной стороне. Для каждой точки этой линии вы можете зарегистрировать предсказываемые значения зависимой переменной, или "высоту" поверхности отклика над треугольником. Этот График следа выглядит так:

Рисунок 14. График следа.
Заметим, что линия наклона для Mullet (Кефали) направлена вверх, то есть чем больше относительная доля Mullet (Кефали), тем больше ожидаемое значение Texture (Текстуры). Другие две линии отражают изгиб поверхности подобным же образом.
Как указано выше, этот график может быть создан для различных базисных смесей, то есть линий, произвольно проведенных в треугольнике, а не обязательно соединяющих стороны с соответствующим углами. Каждая такая линия может быть охарактеризована базисной смесью, то есть смесью с фиксированным отношением двух компонент, тогда как третья изменяется.
(c) Copyright StatSoft, Inc., 1984-2003
STATISTICA является торговой маркой StatSoft, Inc.