StatSoft Russia
   главная       о компании       продукты       консалтинг       отрасли       ресурсы       порталы       VIP   
Продукты

       STATISTICA
  »   Neural Networks
       Industrial System
       Data Miner
       Enterprise Solutions
       Каталог продуктов
       Интеграция

Построение модели поведенческого скоринга

В данном примере рассмотрим схему построения нейросетевой модели для задачи поведенческого скоринга. Поведенческий скоринг (behavior scoring) используется для принятия решений по уже выданным кредитам.

Основные решения, принимаемые с использованием поведенческого скоринга, можно сформулировать следующим образом:

  • Предложение новых услуг и улучшение уже предоставляемых услуг.

  • Решение, выдавать ли кредитную карту заново после истечения срока действия, или нет.

  • Меньший стартовый кредитный лимит или максимальное значение кредита на кредитной карточке.

  • Более строгий сбор платежей с нарушителей или отправка данных о них в агентства сбора платежей.

  • Повышение кредитного лимита.

  • Помещение под наблюдение ввиду потенциальных мошеннических действий и т.д.

В данном примере необходимо оценить кредитоспособность существующих заёмщиков на основании данных о графике погашения кредитов и динамики движения средств на счетах клиента.

Структура данных

Каждого клиента будем характеризовать 22 признаками. 20 переменных относятся к анкетным данным, которые заполняются в анкете для получения кредита. К этим переменным относятся:

  • Текущий баланс счета

  • Продолжительность в мес

  • Назначение кредита

  • Сумма кредита

  • Объем сбережений

  • Время работы на данном рабочем месте

  • Семейное положение/пол

  • Длительность проживания по текущему адресу

  • Возраст в годах

  • Число предыдущих кредитов в банке

  • Должность

и другие.

На основании перечисленных факторов все клиенты подразделяются на “хороших” и “плохих”. Разбиение на эти группы записано в переменной Кредитоспособность (Creditability).

Всего имеются данные по 1000 клиентов. При этом, 30% относятся к “плохим”, а остальные 70% - к “хорошим”. Процент невыплат по всей совокупности данных около 3% (данная величина относится к одному месяцу). Элемент таблицы данных показан на рис.1.

 Рис.1. Фрагмент исходной таблице данных

Поскольку количество наблюдений, относящихся к разным группам (“хороший” и “плохой”), существенно различается, то необходимо задать дополнительную переменную, содержащую веса наблюдений. В противном случае группа “хороших” будет оказывать большее влияние на построение модели, чем группа “плохих”.

Для группы “хороший” зададим вес равный 3, а для группы “плохой” равный 7 (т.е. каждая группа будет оказывать одинаковое влияние на построение модели).

Переменную, содержащую веса, назовем w.

Построение модели

Шаг 1. На первом шаге необходимо исключить из анализа переменные, которые не оказывают значимого влияния на принадлежность к тому или иному классу (на зависимую переменную). Использование алгоритмов снижения размерности уменьшает количество независимых переменных до 10. О понижении размерности данных для этой задачи можно прочитать в полной версии примера. Далее используются только выделенные переменные.

Шаг 2. В стартовом окне задаем новый набор независимых переменных (рис.2).

Рис.2. Стартовое окно модуля Нейронные сети

В качестве инструмента построения сети будем использовать Мастер решений. После того, как установки проделаны, нажимаем OK.

Шаг 2. Выбор модели.

В начале проведем анализ для невзвешенных переменных. На вкладке Быстрый Мастера решений (рис.3) изменим величину длительности анализа и установим ее равной 100.

Рис.3. Окно Мастера решений, вкладка Быстрый

Для начала, нам необходимо выяснить, какие модели будут работать эффективнее, поэтому, не изменяя остальных опций, нажимаем OK.

Рис.4. Окно результатов

Анализируя величину производительности на тестовом множестве, делаем вывод, что точность прогноза с помощью построенных моделей находится на уровне 80%.

Не углубляясь в дальнейшее изучение построенной модели, попробуем улучшить ее, включив в анализ переменную с весами.

С улучшенными результатами можно ознакомиться в полной версии примера. Здесь приведём только матрицу классификации.

Рис.5. Таблица описательных статистик классификации

Процент правильно классифицированных в категорию “плохой” равен 98%, а в категорию “хороший” – 96.7%.


    e-mail    eiioaeou контакты   обратная связь   карта сайта © StatSoft Russia 2012
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.