Осторожно: средняя результативность!
Средняя результативность
привлекательна...
...но не информативна!!!
Стандартное отклонение: плюсы и минусы
Асимметрия мода, медиана
Гистограммы и "ящики с усами"
Данная статья посвящена поиску более тонких инструментов статистики для результативности.
Для характеристики различных футбольных турниров, команд или отдельных игроков часто используется понятие "средняя результативность". Правильней было бы говорить о "средней арифметической результативности", то есть о числе всех забитых голов, разделенных на количество проведенных матчей. Желание применять этот показатель вполне понятно: как иначе сравнить результативность футболистов, команд или турниров, если число игр неодинаково? Вроде бы понятен и "физический" смысл средней результативности - это наиболее вероятный исход произвольно выбранного матча. Если мы, например, знаем, что игрок Х забивает в этом сезоне в среднем 3 гола за одну игру, то, собираясь на матч с его участием, мы рассчитываем, что увидим, скорее всего, 3 забитых мяча в его исполнении, или хотя бы 2 или 1, а может быть и 4 или даже 5. То же самое относится и к турнирам, и к командам. Средняя результативность служит нам более или менее точным ориентиром для нашего ожидания количества голов, забитых в каждом матче.
Однако использование среднего арифметического очень часто не достаточно информативно. Рассмотрим для примера результаты двух небольших турниров (см. табл.1 и 2).
|
№ матча
|
1
|
2
|
3
|
|
Количество
забитых голов
|
3
|
3
|
3
|
|
№ матча
|
1
|
2
|
3
|
4
|
|
Количество
забитых голов
|
0
|
0
|
0
|
12
|
Как мы видим, количество проведенных матчей в турнирах разное (3 и 4), поэтому общее забитое количество голов (9 и 12) сравнивать нельзя. Средняя результативность для первого турнира вычисляется как
(3 + 3 + 3) / 3 = 3 гола за игру,
Для второго турнира находим этот же показатель
(0 + 0 + 0 + 12) / 4 = 3 гола за игру.
Таким образом, средняя результативность
двух турниров одинакова. Однако любой скажет, что если в первом случае средняя
результативность действительно отражает, как эффективно команды играли в атаке,
то во втором случае, средняя результативность только вводит в заблуждение. Услышав
от кого-нибудь цифру средней результативности, и не зная ничего больше, мы отправимся
на матч с предвкушением увидеть красиво забитые голы, но наше ожидание, скорее
всего, не подтвердится. Очевидно, что нам необходим еще какой-то показатель,
который отразит разницу между первым и вторым турнирами: если в первом во всех
матчах забивалось одно и то же количество голов, то во втором результативность
матчей существенно отличалась.
Для характеристики разброса (рассеяния)
значений вокруг среднего значения в статистике есть множество показателей, но
самый распространенный - так называемое стандартное отклонение. Оно показывает
типичное расстояние от отдельных результатов до среднего значения. Так стандартное
отклонение для первого турнира будет равно 0, а для второго турнира - равно
6. Теперь мы имеем не только "типичный" счет матча (среднее арифметическое),
но и степень голевого разнообразия игр (стандартное отклонение). Казалось бы,
что два этих параметра могут отразить все особенности футбольных поединков с
точки зрения результативности. К сожалению, это не так.
Для описания всей совокупности данных с помощью различных статистических параметров
требуется предварительная проверка условий для того, чтобы эти вычисленные параметры
адекватно отражали реальное положение дел и тем более не искажали картину происходящего.
Рассмотрим еще один пример. Предположим, на некотором турнире матчи с различным числом забитых мячей встречались с частотой, приведенной в таблице 3.
|
Забитых голов
в игре
|
0
|
1
|
2
|
3
|
|
Как часто
встречалось
|
4
|
4
|
4
|
4
|
Хорошо видно, что матчи с разным числом забитых голов встречались одинаково часто. Такого рода распределение данных называют равномерным. Для равномерного распределения данных среднее значение не отражает реальную картину. Мы понимаем среднее как наиболее вероятное значение, но для равномерного распределения это не верно. Если мы, например, возьмем распределение дат рождений футболистов по месяцам и увидим, что количество родившихся в январе равно количеству родившихся в феврале, марте и т. д., то есть распределено равномерно (кстати говоря, на самом деле это не так), то среднее значение месяца рождения будет 6, то есть июнь. Такое среднее ничего не говорит о имеющихся данных, а скорее вводит в заблуждение. Не помогает здесь и стандартное отклонение. Оба этих инструмента предназначены для другого типа распределения, которое называют нормальным (гауссовым) распределением данных. Ниже приведен пример распределения, близкого к нормальному (см. рис. 1).

Рис.1. Результаты матчей чемпионата мира по футболу 1998 года. Размеры столбиков
(по оси y) показывают, сколько на турнире было матчей с указанной результативностью
(по оси x), причем эту величину нужно смотреть по правой границе столбика. Соответственно,
первый столбик отражает тот факт, что матчей с незабитыми мячами было 4; второй
столбик - что забито по одному голу было в 12 матчах и т.д. График красного
цвета показывает ожидаемое нормальное распределение.
Нормальное распределение данных
- весьма распространенное явление. Оно наблюдается тогда, когда на результат
влияет множество факторов и ни один из них нельзя назвать решающим. В таком
случае мы наблюдаем характерную картину, когда результаты, близкие к среднему
арифметическому встречаются чаще всего, а чем больше отличается результат от
среднего, тем менее вероятно его появление. Именно к таким распределениям данных
и подходит (становится осмысленным и полезным) среднее арифметическое и стандартное
отклонение от него.
А если распределение отличается от такой идеальной картины?
А если распределение отличается
от такой идеальной картины? Обратим внимание, на рисунке 1 видна явная асимметричность
распределения в правую сторону. Это означает, что матчи с большим числом голов
- редкое явление. Но именно они приводят к смещению среднего арифметического
в сторону длинного хвоста. Если добавить в большую группу людей среднего достатка
одного олигарха, то их средний доход заметно вырастет. Как шутят статистики,
сидеть на горячей плите, надев на голову холодильник в среднем неплохо.
Для учета такого рода несимметричности данных существует понятие асимметрии. Для графика на рисунке 1 она равна 0,233, в общем-то не очень большое отклонение от симметричности. При абсолютной симметрии этот показатель равен 0. Для чемпионата мира 1974 года она существенно больше и равна 1,22 (см. рис. 2).

Рис. 2. Результаты чемпионата мира 1974 года.
При таких обстоятельствах целесообразно
наряду со средней арифметической использовать и медиану. Медиана показывает
середину всех результатов матчей. Если расположить все игры по возрастающей
результативности - 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2…9, то медиана разделит
эту последовательность ровно пополам. При значительной асимметрии данных медиана
более осмысленно показывает их типичное значение. Для чемпионата мира 1974 года
медиана равна 2.
Наконец, можно указать еще один показатель типичного, "среднего" значения,
который называется модой, то есть наиболее часто встречающимся значением в данных.
В футбольной статистике она обычно называется "самый популярный счет"
чемпионата. Напомню, что в нашем рассмотрении мы анализируем не счет как таковой,
а общее число забитых в игре мячей, поэтому результаты 2:1, 1:2, 3:0 в данном
контексте неразличимы. На рис. 3 показан чемпионат мира 1970 года, в котором
было две моды.

Рис. 3. Итоги чемпионата мира 1970 года.
Для идеального нормального распределения
значения среднего арифметического, медианы и моды совпадают. При асимметрии
данных они различаются. Чем больше эта асимметрия, тем эффективней использование
моды и медианы для характеристики данных. Но все это только в том случае, если
распределение данных все-таки нормально. В вышеприведенном примере равномерного
распределения данных их использование будет ошибочным. Что же делать?
Ну, во-первых, полезней всего использовать графики, которые наглядно и в тоже время сжато представят всю совокупность данных. Наиболее полезные из них - столбиковые диаграммы распределения (гистограммы), которые приводились выше, и так называемые ящичковые диаграммы, или диаграммы размаха. Последние называют еще "ящики с усами" (см. рис.4). Разумеется, существует и множество других.

а)

б)
Рис. 4. Результативность чемпионатов мира по футболу
с 1930 по 2002 год.
На рисунке 4.а показана только средняя результативность. Создается впечатление, что она неуклонно снижается. Однако если мы возьмем более подробные диаграммы размаха (рис. 4.б), то увидим, что это не так. Маленький квадрат показывает среднюю (арифметическую) результативность турнира. Поскольку мы имеем дело со статистическими, то есть с вероятностными данными, прямоугольник обозначает диапазон среднего значения, в которое среднее значение попадает с 95 % вероятностью (так называемую ошибку среднего). Наконец, "усы" показывают меру разброса результатов вокруг средней результативности (стандартное отклонение). Хорошо видно, что, начиная с чемпионата 1962 года, результативность практически не меняется. Исключение составляет разве что 1990 год.
Во-вторых, если уж использовать средние значения для характеристики турнира, команды или игрока, не худо было бы сначала проверить, насколько они адекватны ситуации.
|
Среднее
|
Медиана
|
Мода
|
Ст.отклонение
|
Асимметрия
|
|
|
ЧМ_30
|
3,8889
|
4
|
4
|
2,27231
|
0,594
|
|
ЧМ_34
|
4,1875
|
4,5
|
5
|
1,97379
|
0,06
|
|
ЧМ_38
|
4,6667
|
4
|
6
|
2,40098
|
1,074
|
|
ЧМ_50
|
3,9565
|
4
|
4
|
2,03332
|
0,633
|
|
ЧМ_54
|
5,2
|
5
|
5
|
2,87228
|
0,596
|
|
ЧМ_58
|
3,6286
|
4
|
4
|
2,34
|
0,858
|
|
ЧМ_62
|
2,7813
|
3
|
3
|
1,99571
|
0,66
|
|
ЧМ_66
|
2,7813
|
3
|
3
|
1,67975
|
0,804
|
|
ЧМ_70
|
3,03
|
3
|
1 и 5
|
2,1813
|
0,148
|
|
ЧМ_74
|
2,5526
|
2
|
2
|
1,99591
|
1,221
|
|
ЧМ_78
|
2,6842
|
3
|
3
|
1,86149
|
0,065
|
|
ЧМ_82
|
2,8077
|
2
|
2
|
2,18765
|
1,109
|
|
ЧМ_86
|
2,5385
|
2
|
2
|
1,73162
|
0,946
|
|
ЧМ_90
|
2,2115
|
2
|
1
|
1,55092
|
0,747
|
|
ЧМ_94
|
2,7115
|
3
|
3
|
1,52543
|
0,27
|
|
ЧМ_98
|
2,6719
|
3
|
3
|
1,49129
|
0,233
|
|
ЧМ_02
|
2,5667
|
2
|
2
|
1,65054
|
1,037
|
Табл. 4. Основные показатели средней результативности чемпионатов мира по футболу 1930 - 2002 годов. Они вычислены на основании результатов матчей в основное и добавочное время.
Наконец, в-третьих, можно поискать еще не использованные инструменты прикладной статистки, которых довольно много. Безусловно, нужно искать такие, которые могут быть если уж не легко интерпретированы любителями и специалистами футбола, то хотя бы в принципе понятны им. Вспомним, что еще недавно европейский приз для лучшего бомбардира - "Золотую бутсу" - получал футболист, просто забивший в национальном чемпионате больше всех голов. Теперь ситуация изменилась - с помощью специальных коэффициентов учитывается уровень каждого национального чемпионата. Не пора ли и для результативности найти более тонкие инструменты?
Источники:
1. Чемпионат мира по футболу 2002: Календарь-справочник. - М.: ООО "Издательство
АСТ": ООО "Издательство Астрель", 2002
2. Мировой футбол 2002-03. Справочник. Составитель И.В. Гольдес - М.: Терра-спорт,
2002
Инструменты:
При построении графиков и статистических расчетах использовалась лицензионная
программа Statistica 5.5A
(c) Copyright StatSoft, Inc., 1984-2003
STATISTICA является торговой маркой StatSoft, Inc.