| |
Телекоммуникации
Решение задач телекоммуникации - стандартная область приложения аналитических методов. Именно с зарождением телефонии (начало прошлого века) связано развитие многих теоретико-вероятностных методов (теории массового обслуживания, надежности, случайных процессов специального вида). Заметим, что нагрузка в сети и в настоящее время измеряется в эрлангах, что связано с именем шведского ученого (Эрланг), занимавшегося телефонией в 30-х годах прошлого века.
Отличие подхода StatSoft состоит в том, что мы исходим из реальных данных и самых общих статистических моделей, не делая никаких предположений о видах распределения, свойствах потоков и тд. Это дает методам StatSoft огромные преимущества: мы синтезируем системный поход и новейшие технологии (включая Data Mining) с классическими методами анализа (многомерные разведочные методы, углубленные методы анализа, нейронные сети).
В целом подход StatSoft прагматичен: абонентов нужно классифицировать, выделять устойчивые группы, изменять тарифы, делая их более эффективными и удобными для пользователей. В конечном итоге следует построить управляющее воздействия, добиваясь эффективного функционирования системы.
Классификация строится на основе реальных данных по моментам подключения, длительности разговоров, оплате за услуги и другим данным, которые имеются у каждой телекоммуникационной компании. Специфика задач телекоммуникации состоит в очень больших объемах данных, и это представляет определенную сложность для анализа, в частности, необходимо использовать выборочные методы и извлекать выборки нужного объема из хранилищ данных (более подробно см. Выборочный анализ).
В телекоммуникации обычно выделяют следующие наиболее важные статистические задачи:
-
-
-
-
-
Прогнозирование
-
Управление абонентами
-
Планирование промо-акций
Далее некоторые из этих задач рассмотрены более подробно.
Задача классификации
Первоначально мы имеем дело с очень большим числом абонентов, если учесть, что эти абоненты связываются друг с другом, то количество данных растет экспоненциально.
Идея сегментации состоит в том, чтобы иметь дело не со всеми абонентами (количество которых N исчисляется сотнями тысяч), а иметь дело с классами (группами) абонентов. Разбиение данных на классы близких между собой объектов носит название классификации.
В маркетинге сложилась устойчивая классификация клиентов (RFM – классификация), позволяющая воздействовать на клиентов и управлять ими (CRM – менеджмент). В телекоммуникации одним из стандартных параметров является частота подключения (Frequency), длительность разговора (Time), используемый тариф, деньги и некоторые другие. Важна такая разумная классификация, которая позволяет управлять абонентами (аналогично классификации RFM и CRM-менеджменту в маркетинге).
Заметим, что частоту или интенсивность можно разбить на интервалы в зависимости от времени суток (утро, день, вечер, ночь), т.е. продолжить классификацию, учитывая дополнительные факторы. Признак Frequency позволяет естественно разбить абоненты на группы в зависимости от частоты звонков.
Следует различать ситуацию, когда мы произвольно назначаем интервал частоты и длительности и относим абонента, чья усредненная частота попала в этот интервал, к классу Часто, или находим эти интервалы длительности (Долго) исходя из данных.
Если интервалы находятся исходя из данных, то стандартной процедурой является кластерный анализ (метод k-средних). Предварительно выполняется процедура иерархической кластеризации (чтобы определить число кластеров). Тонкость – выбор метрики. Интервалы классификации могут быть также найдены методами описательной статистики и графического анализа данных (грубые оценки).
Отметим дополнительные факторы, влияющие на классификацию: выбор интервала усреднения (неделя, 2 недели, месяц), который также следует определить исходя из данных.
Очевидно, состав групп меняется с течением времени (например, в течение месяца): абонент из группы часто может перейти в группу иногда, иногда в группу редко и т.д. Аналогичным образом строится классификация по переменной Time (усредненные длительности разговоров).
Используются также Деревья классификации и Обобщенные деревья классификации, но классификация разумна только тогда, когда ее можно использовать, в этом случае переменная (Money) является зависимой. Исследование зависимости проводится в модуле Generalized Linear/Nonlinear Models.
Более мощными процедурами являются методы добычи данных, позволяющие совместить процедуры классификации и построения зависимостей (см. также портал Data Mining & Scoring). Здесь имеется блок процедур: Goodness of Fit, Feature Selection and Variable Screening, Classification, Prediction, Combining Groups (Classes) for Predictive Data Mining и др.
Более подробную информацию можно получить у экспертов StatSoft.
Выборочный анализ
Задача выборочного анализа очень проста и состоит в следующем: как построить выборку, не анализируя весь объем данных, чтобы построенные выборочные оценки оказались достаточно точными и выводы, сделанные на основе выборки можно распространить на все данные.
Если количество звонков абонентов измеряется миллионами, то каков должен быть объем выборки (1000, 10 000) и как конкретно построить эту выборку извлекая разумным образом данные из хранилища данных.
Анализ мощности (Power Analysis) частично решает эту проблему, именно, позволяет рассчитать необходимый объем выборки, например, для оценок среднего, частот, различных тестов. Различные графики оценки точности в зависимости от объема выборки, расчет ошибок также доступны в этом модуле.
В задаче классификации звонков требуется получить приемлемые оценки частот звонков и далее классифицировать абонентов в группы: Редко, Иногда, Часто, Очень часто. Итак, сколько нужно выбрать абонентов, чтобы получить приемлемые оценки и выборочную классификацию распространить на всех абонентов? Эта задача решается специальными методами.
Оценка нагрузки сети
Трафик нагрузки, измеряемый в эрлангах, меняется в зависимости от времени суток, дня недели, праздничных и предпраздничных дней. Важно уметь оценивать и прогнозировать пики нагрузки, зависимость пиков от тарифа (категориальный фактор) и т.д.
Сезонная составляющая отчетливо проявляется в трафике и легко оценивается стандартной процедурой декомпозиции в модуле Анализ и прогнозирование временных рядов (см. процедуру Сезонная декомпозиция).
Для подгонки кривой и оценки пиков нагрузки можно использовать следующие методы:
-
нелинейное оценивание;
-
обобщенные линейные и нелинейные модели позволяющие учесть влияние категориальных факторов;
-
нейронные сети.
Более подробную информацию можно получить у экспертов StatSoft.
| |