Учебник по математической статистике


Глава 1. Основные распределения и их моделирование

"Математические модели – объект и орудие труда математика"
К.А. Рыбников (род. 1913 г.),
математик, историк математики, профессор МГУ.

Введение

Выше мы определили статистическую модель и ее отношение к вероятностной модели: в обоих случаях модель задается плотностью распределения f(x) наблюдаемой случайной величины , а различие заключается в том, что мы априори предполагаем известным об этой плотности. В вероятностных задачах эта плотность полностью известна, в статистических – она задается (предполагается) с той или иной степенью неопределенности, и статистик "борется" с этой неопределенностью. Часто мы предполагаем известным вид плотности f(x), а неопределенность выражается через те или иные параметры, от которых зависит функция f(x) (выше такие модели названы параметрическими). В теории вероятностей наиболее часто встречающиеся законы распределения (модели) имеют общепринятое наименование и обозначение – этот "язык" переносится и на соответствующие статистические модели. Проиллюстрируем это на одном конкретном примере.

Пусть из каких-то соображений (например, основываясь на центральной предельной теореме теории вероятностей) постулируется, что – нормальное распределение. Если обозначить через (мю) и (сигма-квадрат) среднее и дисперсию нормального закона, то сказанное в символьном виде записывается так: (N большое является общепринятым обозначением нормального закона распределения). В терминах плотности f эта удобная лаконичная запись "расшифровывается" так:

     (1)

(здесь и использовано стандартное обозначение exp{t}=et). В вероятностных задачах, связанных с нормальным распределением, - в этом случае говорят о нормальной модели, - параметры и считаются известными, и тем самым нормальная плотность полностью определена. Если же один из этих параметров (или оба) априори неизвестен, то мы имеем дело со статистической нормальной моделью. Неизвестный параметр модели принято обозначать символом (тэта), а область его возможных значений - (тэта-большое), таким образом, в рассматриваемом случае мы имеем три варианта нормальной статистической модели:

  1. , - известна дисперсия и известно среднее;
  2. , - известно среднее и неизвестна дисперсия;
  3. , - оба параметры неизвестны.

Поскольку в дальнейшем мы будем иметь дело с конкретными значениями, которые широко используется в практических приложениях, мы сначала приведем для напоминания и удобства изложения и последующих ссылок – справочник основных вероятностных распределений, сопровождая их некоторыми относящимися к теме комментариями. Это очень важный материал, поскольку он является базой для решения всех примеров и последующих задач.

§1.1 Основные дискретные модели математической статистики

В этом параграфе мы дадим определения и опишем необходимые нам в последующем основные свойства наиболее известных дискретных вероятностных распределений (как одномерных, так и многомерных), а также проиллюстрируем их использование в вероятностных и статистических задачах. Замечательным фактом является то, что существует несколько распределений большой общности, встречающихся в самых разнообразных задачах теории вероятностей и математической статистики. Прежде всего это биномиальное распределение, распределение Пуассона и нормальное распределение – с первого мы и начнем.

1. Схема Бернулли и биномиальное распределение. Говорят, что случайная величина имеет распределение Бернулли с параметрами p (0<p<1), если она имеет лишь два значения, обозначаемые обычно 0 и 1, и при этом

P{ = 1} = p = 1 – P{ = 0}

В терминах плотности f(x) это можно записать в виде

f(x) = f(x | p) = pxq1-x, x = 0,1, q = 1 – p     (2)

В символьных обозначениях сказанное выражается кратко так: и называется бернуллиевской моделью. Фундаментальная роль этой модели в теории вероятностей и математической статистике ясна: она является подходящей математической моделью для любого эксперимента с двумя исходами ("успех" - "неуспех"), т.е. простейшего статистического эксперимента. Среднее и дисперсия такой случайной величины есть

E = p и D = pq.     (3)

Если все случайные величины последовательности {X, X, …} (конечной или бесконечной) независимы и имеют одно и то же распределение Bi(1,p), то мы имеем последовательность испытаний Бернулли или, кратко, бернуллиевскую последовательность, называемую так по имени Якоба Бернулли (1654 - 1705) – выдающегося швейцарского математика, впервые изучавшего такую схему (его основополагающие труды в области теории вероятностей изложены в посмертно изданном сочинении "Искусство предположений" (1713).

Пусть {X1, …, Xn} – бернуллиевская последовательность с параметром p. Тогда сумма X = X1 + …+ Xn имеет биномиальное распределение с параметрами n и p, что кратко записывается в виде: L(X) = Bi(n, p). Эта случайная величина принимает, очевидно, лишь значения 0, 1, …, n и при этом

     (4)

Термин "биномиальное распределение" связан с тем, что вероятности (4) являются членами известного "бинома Ньютона":

Таким образом, биномиальную модель Bi(n, p) описывает распределение числа "успехов" в n испытаниях Бернулли с неизменной вероятностью "успеха" p. Здесь

EX = np  и  DX = npq.     (5)

Полезно знать также следующее свойство биномиального распределения: если случайные величины X , …, X независимы и L(Xj) = Bi(nj, p), j = 1, …, k, то L(X1 + …+ Xk) = Bi(n1 +…+ nk, p). Это свойство биномиального распределения Bi(n, p) называется воспроизводимостью по параметру n.

Если параметр p нам неизвестен (а так на практике чаще всего и бывает!), то мы имеем биномиальную статистическую модель Bi(n, ),   = { :  0 <  < 1 } (при n = 1 – бернуллиевскую статистическую модель Bi(1, )).

Пример 1. Рассмотрим ситуацию, описанную в примере 1 Введения. Если в данном эксперименте реализуется схема выбора с возвращением, и если условия эксперимента обеспечивают независимость извлечения очередного шара от результатов предыдущих извлечений (практически это достигается тщательным перемешиванием содержимого урны перед каждым очередным извлечением), то мы имеем бернуллиевскую модель Bi(1, ), где под "успехом" понимается извлечение белого шара, для которой надо оценить параметр по результатам n испытаний. В данном случае наблюдаемая случайная величина X есть число белых шаров выборке из n шаров, которая имеет биномиальное распределение Bi(n, ).

Пример 2. Рассмотрим подробно описанный в примере 4 Введения эпизод с преподобным Галиани. Здесь мы имеем эксперимент, состоящий в пятикратном бросании трех игральных костей. Интересующая нас величина, характеризующая один опыт, - число выпавших шестерок на трех костях. Обозначим ее . В свою очередь, она равна сумме трех бернуллиевских величин 1, 2 и 3, где i = 1, если на i-й кости выпада шестерка, и 0 – в противном случае (i = 1, 2, 3). Если исходить из того, что кости одинаковы (это обычно подвергается сомнению, хотя, на самом деле это гипотеза), то случайные величины i, i = 1, 2, 3, имеют одно и то же распределение Бернулли Bi(1, ) и они, по условию опыта, независимы. Тем самым их сумма = 1 + 2 + 3 имеет распределение Bi(3, ), и над этой случайной величиной произведено пять независимых испытаний, т.е. мы имеем случайную выборку X = (X1, …, X5) из распределения Bi(3, ). Таким образом, мы построили биномиальную модель Bi(3, ) для описания нашего эксперимента, и в рамках этой модели требуется проверить гипотезу симметричности костей H0: (т.е. гипотезу о том, что каждая грань выпадает с одинаковой вероятностью 1/6). Как логично формализовать рассуждения преподобного? Общее число выпавших шестерок X = X1 + … + X5 имеет биномиальное распределение Bi(15, ), и по формуле (4)

P{X = 15} = f(15 | 15, ) = 15

Следовательно, при справедливости гипотезы H0 вероятность наблюдаемого события, т.е. X = 15, равна 6-15, что ничтожно мало (!). Наверное, любой бы разумный человек на месте преподобного усомнился в истинности гипотезы H0 в данном случае (при таком наблюдаемом ходе эксперимента).

Замечание. Обратим внимание на следующее. В данном случае, если отбросить несущественные для математики эмоциональные нюансы (пари), а оставить лишь физическую суть эксперимента (в его ходе было брошено 3*5 = 15 костей), то можно сразу говорить о случайной выборке объема n = 15 из распределения Бернулли Bi(1, ): X = (X1, …, X15), для которой исследуется случайная величина X = X1 + …+ X15 – общее число выпавших шестерок. Конечно, снова L(X) = Bi(15, ).

2. Отрицательное биномиальное распределение. С бесконечной последовательностью испытаний Бернулли {X1, X2, …} связано еще одно важное дискретное распределение, которое обозначается (r, p) и называется отрицательным биномиальным распределением с параметрами r и p (здесь r – натуральное число). Это есть распределение числа "успехов" (1), предшествующих r-му "неуспеху" (0), и оно задается вероятностями

     (6)

Заметим, что выражение f(x | r, p) совпадает с х-м членом разложения функции qr(1 – p)-r в ряд по степеням р; т.е. отрицательного бинома (отсюда и название):

В частном случае r = 1 распределение (1, p) называется геометрическим: это есть распределение числа частиц, предшествующих первому нулю в бернуллиевской последовательности. Формула (6) в этом случае принимает вид

     (7)

Если случайная величина имеет распределение (r, p), то

  и       (8)

Полезно знать также свойство воспроизводимости распределения (r, p) по параметру r: если случайные величины X1, …, Xk независимы и L(Xj) = (rj, p), j = 1, …, k, то L(X1 + … + Xk) = Bi(r1 + … + rk, p). Отсюда следует, что случайная величина с распределением (r, p) может быть реализована (построена) как сумма r независимых случайных величин с одинаковым геометрическим распределением (1, p), - этот факт используется для моделирования случайных величин с отрицательным биномиальным распределением (см. далее § 1.3).

Если параметр р неизвестен, то имеем отрицательную биномиальную статистическую модель (r, ),   = { :  0 <  < 1 } (при r = 1 – геометрическую статистическую модель (1, ). Эти модели часто используются, например, при разработке математических методов контроля качества промышленной продукции.

Замечание. В формуле (6) биномиальный коэффициент определен при любом действительном r, а при r > 0 этот коэффициент положителен, поэтому эта формула определяет распределение вероятностей при всех r > 0 и 0 < p < 1, а не только при натуральных r. При натуральных r распределение (r, p) называют также распределением Паскаля.

3. Распределение Пуассона.

Случайная величина имеет распределение Пуассона с параметром ( > 0), если

     (9)

Что кратко записывается в виде L() = П(); при этом  = Е = D.

Это одно из важнейших дискретных вероятностных распределений впервые было исследовано в 1837 г. С.Пуассоном (французский математик, механик и физик, 1781 – 1840 гг.), именем которого оно и называется.

Пуассоновская модель П() обычно описывает схему редких событий: при некоторых предположениях о характере процесса появления случайных событий число событий, происшедших за фиксированный промежуток времени или в фиксированной области пространства, часто подчиняется пуассоновскому распределению. Примерами могут служить число частиц радиоактивного распада, зарегистрированных счетчиком в течении некоторого времени t, число вызовов, поступивших на телефонную станцию за время t, число дефектов в куске ткани или в ленте фиксированной длины, число изюминок в кексе и т.д. Наконец, распределение Пуассона дает хорошую аппроксимацию биномиального распределения для больших значений n и малых значений р: Bi(n, p)  П(np), если np не велико. Это свойство позволяет значительно упростить вычисления в биномиальной модели при указанных условиях.

Пример 3. Дни рождения (из книги В.Феллера "Введение в теорию вероятностей и ее применения" Т1. – М.: Мир, 1984, с. 171 - 172). Какова вероятность px того, что в группе из 500 человек ровно х родились 1 января? Если эти 500 человек выбраны случайно, то можно применить схему из 500 испытаний Бернулли с вероятностью успеха р = 1/365. Для пуассоновского приближения положим  = 500/365 = 1,3699… Теоретические биномиальные вероятности (4) и их пуассоновские приближения (9) приведены ниже:

X 0 1 2 3 4 5 6
px = f(x | 500, 1/365) 0,253 0,3484 0,2384 0,1089 0,0372 0,0101 0,0023
px  f(x | 500/365) 0,2541 0,3481 0,2385 0,1089 0,0373 0,0102 0,0023

Распределение Пуассона воспроизводимо по своему параметру, т.е. если X1, … , Xk – независимые случайные величины и L(Xj) = П(j),  j = 1, … , k, то L(X1 + … + Xk) = П(1 + … + k).

Если параметр неизвестен, то имеем пуассоновскую статистическую модель П(),   = {  > 0 }.

4. Гипергеометрическое распределение. Случайная величина имеет гипергеометрическое распределение с параметрами a1, a2 и n, где a1, a2 и n – натуральные числа, причем , если

     (10)

Такое распределение возникает в следующей схеме. Рассмотрим ситуацию, описанную в примере 1 Введения, и предположим, что n шаров извлекаются наугад без возвращения. Тогда, если обозначает число белых шаров в выборке, то эта случайная величина имеет распределение H(a1, a2, n) (сравним с примером 1.1).

Заметим, что вероятности (10) отличны от нуля лишь при x ≤ a1 и n - x ≤ a2, т.е. когда целое х лежит в интервале max(0, n - a2) ≤ x ≤ min(n, a1).

Если , то ее первые два момента есть

  и       (11)

"Обобщение понятия зачастую бывает полезно для постижения его сущности". А.Н.Колмогоров (1903-1987), великий русский ученый, один из крупнейших математиков ХХ века, академик АН СССР,создатель современной аксиоматики теории вероятностей.

5. Распределение Маркова-Пойа. Это распределение является обобщением одновременно и биномиального и гипергеометрического распределений и возникает оно в следующей урновой схеме. Вновь вернемся к примеру 1 Введения и рассмотрим следующий эксперимент. Из урны, содержащей первоначально a1 белых и a2 = a - a1 черных шаров, выбирается наугад (т.е. равновероятно) один шар, фиксируется его цвет и шар возвращается в урну с одновременным добавлением с новых шаров того же цвета. Затем из урны (содержащей теперь а + с шаров) снова производится случайное извлечение одного шара и повторяется тот же процесс. Здесь с может быть любым целым числом и, в частности, при с = 0 (новые шары не добавляются), мы имеем случайный выбор с возвращением, рассмотренный в примере 1.1, а при с = -1 (извлеченный шар в урну не возвращается) – схему случайного выбора без возвращения, рассмотренную в предыдущем п. 4 (в последнем случае процесс извлечения шаров кончается через а шагов из-за отсутствия шаров в урне). При с > 0 эта схема выбора обладает эффектом последействия 6 если извлекается шар какого-то цвета, то шанс (вероятность) извлечь шар такого же цвета при следующем испытании возрастает. Такая урновая схема может служить приближенной моделью явлений, подобных эпидемиям, когда осуществление некоторых событий увеличивает шанс их повторения.

Пусть обозначает число белых шаров, наблюдавшихся при n извлечениях. Распределение вероятностей этой случайной величины называется распределением Маркова-Пойа (обозначается L() = МП(n; a1, a2, c)) и имеет вид

     (12)

Если воспользоваться биномиальными коэффициентами и учесть, что любого действительного а и натурального х

  и  ,

то формулу (12) при с ≠ 0 (тогда числитель и знаменатель можно разделить на cn) можно записать также в любой из следующих двух форм:

     (13)

Подчеркнем, что из (12) при с = 0 мы получаем биномиальное распределение Bi(n, p), (как в примере 1.1 для схемы выбора с возвращением), а из второго представления в (13) при с = -1 – гипергеометрическое распределение H(a1, a2, n) (как в п.4 для схемы выбора без возвращения), так что распределение Маркова-Пойа включает в себя как частные случаи оба эти распределения.

Если L() = МП(n; a1, a2, c), то среднее и дисперсия имеют вид

  и       (14)

Интересна история открытия этого распределения. Впервые оно появляется в рвботах выыдающегося русского математика, академика А.А. Маркова (1856 - 1922), который провел исчерпывающий анализ этого распределения и опубликовал свои результаты в Известиях Петербургской Академии Наук в 1917 г. Но, по-видимому, эта публикация "осталась незамеченной" за рубежом, так как, спустя 6 лет, в 1923 г. появляется работа Ф. Эггенбергера и Д. Пойа, где вводится такое же распределение и доказываются для него некоторые частные результаты. С этих пор данное распределение стало называться в зарубежной литературе именем одного из его авторов – Пойа (выдающийся венгерский математик, 1887- 1985), хотя более исторически оправдано название "распределение Маркова-Пойа".

6. Полиномиальное распределение. M(n; p) с параметрами n и p, где n – натуральное число и p = (p1, … , pN), 0 < pi < 1, i = 1, … , N, p1+ … + pN = 1, - это распределение случайного вектора (ню) с целочисленными компонентами, удоволетворяющими условию , которое задается вероятностями

     (15)

где x = (x1, … , xN) – произвольный вектор с целыми неотрицательными компонентами, причем x1 + … + xN = n. Кратко это записывается так: L() = МП(n; p).

Название "полиномиальное распределение" связано с тем, что вероятность (15) представляет собой общий член в разложении полинома (p1 + … + p1)n по степеням p1, … , pN:

Здесь

     (16)

Такое распределение возникает в схеме полиномиальных испытаний, т.е. независимых испытаний с N возможными исходами, вероятности которых не меняются от испытания к испытанию и равны p1, … , pN соответственно: если произведено n испытаний и - число реализаций в них i-го исхода, i = 1, … , N, то L() = МП(n; p). Если N = 2 (схема с двумя исходами), то мы имеем схему Бернулли (см. п. 1), для которой L() = Bi(n, pi); с другой стороны, так как  = n -  и p2 = 1 - p1, то двумерный вектор (, n - ) имеет полиномиальное распределение M(n; p1, 1 - p1), эквивалентное, следовательно, биномиальному распределению Bi(n; p1). Отсюда же вытекают следующие свойства полиномиального распределения: 1) распределение каждой компоненты вектора является биномиальным Bi(n, pj), j = 1, … , N, и 2) если векторы независимы и , то (воспроизводимость по параметру n).

Отметим еще, что часто вместо термина "полиномиальное" используется его синоним "мультиномиальное".

В приложениях обычно вектор вероятностей p = (p1, … , pN) неизвестен – в этом случае мы имеем полиномиальную статистическую модель с параметрическим множеством .

Пример 3. (обобщение примера 1 Введения). Имеется урна с шарами N различных цветов, которые мы условно обозначим A1, … , AN. Пусть aj – число шаров цвета Aj, j = 1, … , N, и а = a1 + … + aN - общее число шаров в урне. Рассмотрим следующий эксперимент: из урны по схеме выбора с возвращением наугад (т.е. равновероятно) извлекается n шаров (т.е. каждый раз любой шар может быть извлечен с одинаковой вероятностью 1/а и независимо от результатов предыдущих извлечений). Обозначим число наблюдавшихся Aj-шаров, j  = 1, … , N. Тогда вектор будет иметь полиномиальное распределение М(n; p) с параметром , т.е. вектором долей цветов A1, … , AN. Если этот вектор нам не известен, то подходящей оценкой для него будет вектор относительных наблюдавшихся частот , так как в силу (16) (в среднем оценка совпадает со значением параметра p). В последующем мы дадим строгое обоснование такого правила оценивания.

7. Многомерное распределение Маркова-Пойа. Вновь обратимся к ситуации, описанной в примере 3, и рассмотрим теперь такой эксперимент: последовательно в каждый момент времени n = 1, 2, … из урны наугад извлекается один шар, фиксируется его цвет, и шар возвращается обратно в урну с добавлением новых шаров того же цвета, что и извлеченный шар (тем самым состав урны каждый раз увеличивается на с шаров, если с < 0; при с = 0 он остается неизменным, т.е. в этом случае мы имеем схему выбора с возвращением, рассмотренную в примере 3). Вновь обозначим число Aj-шаров, наблюдавшихся при n извлечениях, j = 1, … , N. Тогда вектор будет иметь распределение

     (17)

где x = (x1, … , xN) – произвольный вектор с целыми неотрицательными координатами, причем x1 + … + xN = n; множество всех таких векторов будем обозначать KNn. Это распределение называется многомерным (N-мерным) распределением Маркова-Пойа с параметрами n, a и с и обозначается символом МП(n; a, с), где a = (a1, … , aN) - вектор первоначального состава урны.

Формула (17) является многомерным (N-мерным) случаем формулы (12) и сводится к ней при N = 2. Если с ≠ 0, то разделив числитель и знаменатель в (17) на c и используя, как и в п.5, биномиальные коэффициенты, этой формуле можно придать еще 2 формы – аналоги форм (13):

     (18)

Отметим два важных частных случая этих соотношений. Если в формуле (1.17) положить с = 0, то мы придем к (1.15) с p = , т.е. распределение Маркова-Пойа МП(n; a, с) сводится к полиномиальному распределению М(n; ). Далее, если во втором представлении (18) положить параметр с = -1 (что соответствует схеме выбора без возвращения), то при n ≤ а (иначе биномиальный коэффициент обратится в 0) получим распределение

     (19)

которое является многомерным (N-мерным) аналогом гипергеометрического распределения (10) и сводится к нему при N = 2. Поэтому распределение, задаваемое вероятностями (19), называется многомерным (N-мерным) гипергеометрическим распределением с параметрами a и n. Оно обозначается символически L() = H(a, n) и характеризует собой схему случайной выборки без возвращения объема n ≤ a из конечной совокупности, состоящей из а = a1 + … + aN элементов, разбитых по некоторому признаку на N непересекающихся классов размерами соответственно a1, … , aN (в данном случае интерпретируется как число наблюдавшихся в выборке элементов j-го класса, j = 1, … , N).

Наконец, если в первом представлении (18) все aj положить равными с, то биномиальные коэффициенты в числителе станут равными 1, и мы придем к формуле

,

задающей равномерное распределение на множестве KNn = {x = (x1, … , xN): xi = 0, 1, 2, … , i = 1, … , N; x1 + … + xN = n}: число элементов (векторов x) этого множества равно – числу решений уравнения x1 + … + xN = n в целых неотрицательных числах, и всем им приписывается одинаковая вероятность.

Таким образом, многомерное распределение Маркова-Пойа включает в себя в качестве частных случаев полиномиальное распределение и многомерное гипергеометрическое распределение.

Если L() = МП(n; a, с), то первые и вторые моменты случайного вектора имеют вид

  и       (20)

8. Распределение степенного ряда. Целый класс дискретных распределений может быть построен по следующей схеме. Рассмотрим произвольный степенной ряд , с неотрицательными коэффициентами (а(х) ≥ 0 для всех х ≥ l) и ненулевым радиусом сходимости R. Тогда при любом можно определить дискретное вероятностное распределение с плотностью

     (21)

(это числа неотрицательные и в сумме дают 1). Такого типа распределение и называется распределением степенного ряда. Класс таких распределений весьма обширен и включает в себя многие стандартные распределения. В частности, в него входят распределение Пуассона П() (см. (9)): для него ; отрицательное биномиальное распределение (r, ) (см. (6)): для него ; логарифмическое распределение, задаваемое вероятностями

     (22)

для него ; и т.д., а также соответствующие усеченные слева распределения.

Примечание. Усеченным называется распределение, у которого некоторые значения запрещены. Например, усеченным в нуле распределением Пуассона является распределение, задаваемое вероятностями (сравни с (9))

     (23)

где константа с определяется из условия нормировки , и в данном случае она равна .

Если случайная величина имеет распределение степенного ряда (21), то ее первые два момента находятся по формулам

  и       (24)

(убедитесь, что формулы для моментов в п.п. 2 и 3 являются частными случаями этих выражений).

Важным свойством степенного ряда является следующее: если случайные величины X1, … , Xn независимы и имеют одно и то же распределение (21), то их сумма Х = X1 + … + Xn также имеет распределение степенного ряда, порождаемое функцией , т.е.

     (25)

где коэффициенты an(x) определяются разложением .

Содержание

Распределения

1. Схема Бернулли и биномиальное распределение

2. Отрицательное биномиальное распределение

3. Распределение Пуассона

4. Гипергеометричес-кое распределение

5. Распределение Маркова-Пойа

6. Полиномиальное распределение

7. Многомерное распределение Маркова-Пойа

8. Распределение степенного ряда

Примеры

Пример 1

Пример 2

Пример 3

Пример 4

 
 
Наверх