Общее введение
Процедуры оценки параметров и прогнозирования предполагают, что математическая модель процесса известна. В реальных данных часто нет отчетливо выраженных регулярных составляющих. Отдельные наблюдения содержат значительную ошибку, тогда как вы хотите не только выделить регулярные компоненты, но также построить прогноз. Методология АРПСС позволяет это сделать. Данный метод чрезвычайно популярен во многих приложениях, и практика подтвердила его мощность и гибкость. Однако из-за мощности и гибкости, АРПСС - сложный метод. Его не так просто использовать, и требуется большая практика, чтобы овладеть им. Хотя часто он дает удовлетворительные результаты, они зависят от квалификации пользователя. Следующие разделы познакомят Вас с его основными идеями.
Два основных процесса
Процесс авторегрессии. Большинство временных рядов содержат элементы, которые последовательно зависят друг от друга. Такую зависимость можно выразить следующим уравнением:
![]()
где:
-
константа (свободный член),
,
,
- параметры
авторегрессии.
Вы видите, что каждое наблюдение есть сумма случайной компоненты (случайное
воздействие,
)
и линейной комбинации предыдущих наблюдений. Такой ряд называется авторегрессией.
Процесс скользящего среднего. В отличие от процесса авторегрессии, в процессе скользящего среднего каждый элемент ряда подвержен суммарному воздействию предыдущих ошибок. В общем виде это можно записать следующим образом:
![]()
где:
-
константа,
,
,
- параметры
скользящего среднего.
Другими словами, текущее наблюдение ряда представляет собой сумму случайной компоненты в данный момент и линейной комбинации случайных воздействий в предыдущие моменты времени.
Модель авторегрессии и скользящего среднего. Общая модель, предложенная Боксом и Дженкинсом, включает как параметры авторегрессии, так и параметры скользящего среднего. Именно, имеется три типа параметров модели: параметры авторегрессии (p), порядок разности (d), параметры скользящего среднего (q). В обозначениях Бокса и Дженкинса модель записывается как АРПСС (p, d, q). Например, модель (0, 1, 2) содержит 0 (нуль) параметров авторегрессии (p) и 2 параметра скользящего среднего (q), которые вычисляются для ряда после взятия разности с лагом 1.
Идентификация. Как отмечено ранее, для модели АРПСС необходимо, чтобы ряд был стационарным, это означает, что его среднее постоянно, а выборочные дисперсия и автокорреляция не меняются во времени. Поэтому обычно необходимо брать разности ряда до тех пор, пока он не станет стационарным (часто также применяют логарифмическое преобразование для стабилизации дисперсии). Число разностей, которые были взяты, чтобы достичь стационарности, определяются параметром d. Для того чтобы определить необходимый порядок разности, нужно исследовать график ряда и автокоррелограмму. Сильные изменения уровня (сильные скачки вверх или вниз) обычно требуют взятия несезонной разности первого порядка (лаг=1). Сильные изменения наклона требуют взятия разности второго порядка. Сезонная составляющая требует взятия соответствующей сезонной разности. Если имеется медленное убывание выборочных коэффициентов автокорреляции в зависимости от лага, обычно берут разность первого порядка. Однако следует помнить, что для некоторых временных рядов нужно брать разности небольшого порядка или вовсе не брать их. Заметим, что чрезмерное количество взятых разностей приводит к менее стабильным оценкам коэффициентов.
На этом этапе (который обычно называют идентификацией порядка модели) вы также должны решить, как много параметров авторегрессии (p) и скользящего среднего (q) должно присутствовать в эффективной и экономной модели процесса. (Экономность модели означает, что в ней имеется наименьшее число параметров и наибольшее число степеней свободы среди всех моделей, которые подгоняются к данным). На практике очень редко бывает, что число параметров p или q больше 2.
Оценивание и прогноз. Следующий, после идентификации, шаг (Оценивание) состоит в оценивании параметров модели (для чего используются процедуры минимизации функции потерь). Полученные оценки параметров используются на последнем этапе (Прогноз) для того, чтобы вычислить новые значения ряда и построить доверительный интервал для прогноза. Процесс оценивания проводится по преобразованным данным (подвергнутым применению разностного оператора). До построения прогноза нужно выполнить обратную операцию (интегрировать данные). Таким образом, прогноз методологии будет сравниваться с соответствующими исходными данными. На интегрирование данных указывает буква П в общем названии модели (АРПСС = Авторегрессионное Проинтегрированное Скользящее Среднее).
Константа в моделях АРПСС. Дополнительно модели АРПСС могут содержать
константу, интерпретация которой зависит от подгоняемой модели. Именно,
1) Если в модели нет параметров авторегрессии, то константа m есть среднее значение
ряда,
2) Если параметры авторегрессии имеются, то константа представляет собой свободный
член.
Если бралась разность ряда, то константа представляет собой среднее или свободный член преобразованного ряда. Например, если бралась первая разность (разность первого порядка), а параметров авторегрессии в модели нет, то константа представляет собой среднее значение преобразованного ряда и, следовательно, коэффициент наклона линейного тренда исходного ряда.
Выбор модели
Число оцениваемых параметров. Конечно, до того, как начать оценивание, Вам необходимо решить, какой тип модели будет подбираться к данным, и какое количество параметров присутствует в модели, иными словами, нужно идентифицировать модель АРПСС. Основными инструментами идентификации порядка модели являются графики, автокорреляционная функция (АКФ), частная автокорреляционная функция (ЧАКФ). Это решение не является простым и требуется основательно поэкспериментировать с альтернативными моделями. Тем не менее, большинство встречающихся на практике временных рядов можно с достаточной степенью точности аппроксимировать одной из 5 основных моделей, которые можно идентифицировать по виду автокорреляционной (АКФ) и частной автокорреляционной функции (ЧАКФ). Ниже дается список этих моделей. Отметим, что число параметров каждого вида невелико (меньше 2), поэтому нетрудно проверить альтернативные модели.
1. Один параметр (p): АКФ - экспоненциально убывает; ЧАКФ - имеет резко выделяющееся значение для лага 1, нет корреляций на других лагах.
2. Два параметра авторегрессии (p): АКФ имеет форму синусоиды или экспоненциально убывает; ЧАКФ имеет резко выделяющиеся значения на лагах 1, 2, нет корреляций на других лагах.
3. Один параметр скользящего среднего (q): АКФ имеет резко выделяющееся значение на лаге 1, нет корреляций на других лагах. ЧАКФ экспоненциально убывает.
4. Два параметра скользящего среднего (q): АКФ имеет резко выделяющиеся значения на лагах 1, 2, нет корреляций на других лагах. ЧАКФ имеет форму синусоиды или экспоненциально убывает.
5. Один параметр авторегрессии (p) и один параметр скользящего среднего (q): АКФ экспоненциально убывает с лага 1; ЧАКФ - экспоненциально убывает с лага 1.
Сезонные модели. Мультипликативная сезонная АРПСС представляет естественное развитие и обобщение обычной модели АРПСС на ряды, в которых имеется периодическая сезонная компонента. В дополнении к несезонным параметрам, в модель вводятся сезонные параметры для определенного лага (устанавливаемого на этапе идентификации порядка модели). Аналогично параметрам простой модели АРПСС, эти параметры называются: сезонная авторегрессия (ps), сезонная разность (ds) и сезонное скользящее среднее (qs). Таким образом, полная сезонная АРПСС может быть записана как АРПСС (p,d,q)(ps,ds,qs). Например, модель (0,1,2)(0,1,1) включает 0 регулярных параметров авторегрессии, 2 регулярных параметра скользящего среднего и 1 параметр сезонного скользящего среднего. Эти параметры вычисляются для рядов, получаемых после взятия одной разности с лагом 1 и далее сезонной разности. Сезонный лаг, используемый для сезонных параметров, определяется на этапе идентификации порядка модели.
Общие рекомендации относительно выбора обычных параметров (с помощью АКФ и
ЧАКФ) полностью применимы к сезонным моделям. Основное отличие состоит в том,
что в сезонных рядах АКФ и ЧАКФ имеют существенные значения на лагах, кратных
сезонному лагу (в дополнении к характерному поведению этих функций, описывающих
регулярную (несезонную) компоненту АРПСС).
Данные представляют собой международные месячные авиаперевозки (в тысячах) за 12 последовательных лет с 1949 по 1960 г.

Рисунок 1. Файл данных.
Ряд имеет отчетливо возрастающий тренд, а также сезонную составляющую (например, в марте перевозки обычно выше, чем в феврале и апреле).
Просмотр результатов.

Рисунок 2. Результаты
АРПСС.
Вывод АРПСС. Посмотрим таблицу результатов с оценками, стандартными ошибками, асимптотическими значениями t-статистик и т.д.

Рисунок 3. Таблица
результатов с оценками, стандартными ошибками, асимптотическими значениями t-статистик
и т.д.
Обе оценки (сезонных и несезонных параметров) высоко значимы.
График остатков. Более хорошая "картина" получается, когда прогнозы продолжают наблюдаемый ряд.

Рисунок 4. График ряда и прогнозов (1-144).
Просматривая график, видно, что построенная АРПСС довольно разумно прогнозирует ряд.
Проверим, насколько хорошо построенная модель АРПСС прогнозирует последние 12 наблюдений.

Рисунок 5. График ряда и прогнозов (1-132).
Видно, что наблюдаемые значения попали в доверительный интервал, т.е. прогноз снова хороший.
Анализ остатков. В общем, кажется, что модель достаточно адекватно подходит
к данным. Однако имеются и другие важные способы оценки адекватности. Имеются
два предположения модели АРПСС:
1) остатки (наблюдаемые минус оцененные значения) нормально распределены,
2) остатки независимы друг с другом, т.е. между ними нет остаточной корреляции.
Если последнее условие не выполнено, то, вполне вероятно, что вы не заметили некоторый дополнительный параметр, влияющий на ряд.
Нормальный вероятностный график. Предположение о нормальности остатков может быть проверено с помощью нормальных вероятностных графиков. Ниже показан Нормальный график.

Рисунок 6. Нормальный
график.
(c) Copyright StatSoft, Inc., 1984-2003
STATISTICA является торговой маркой StatSoft, Inc.