StatSoft Russia
   главная       о компании       продукты       консалтинг       отрасли       ресурсы       порталы       VIP   

Пример 3. Частотный анализ речей Б. Обамы.

Рис. 1

В данном окне пользователь может выбрать источник текстовых данных, с которыми он будет работать в дальнейшем.

Мы будем работать с файлами, расположенными локально (на компьютере пользователя). Для этого нажмём кнопку «Выбрать файлы на компьютере».

Рис. 2

В данном окне пользователь может выбрать файлы на компьютере, которые он желает проанализировать. Для этого необходимо нажать кнопку «Добавить файл»:

Рис. 3

и выбрать соответствующие файлы. Возможно выбрать сразу несколько файлов.

После выбора файлов их имена будут отображены в рабочей области окна:

Рис. 4

При желании, пользователь может удалить некоторые файлы из списка (например, при случайном выборе ненужного файла). Для этого стоит использовать кнопки «Удалить файлы» и «Очистить».
После выбора нужных файлом нажимаем кнопку «Далее» и попадаем в следующее окно.

Рис. 5

В данном окне пользователь имеет возможность выбрать для анализа файлы, которые он до этого указал на компьютере вместе с файлами, скачанными из интернета.

Для переноса файлов в область анализа (большую область справа) необходимо выделить файлы:

Рис. 6

И нажать соответствующую кнопку «>>»:

Рис. 7

После этого следует нажать кнопку «Далее» для перехода к окну начального анализа.

Рис. 8

Значение минимальной частоты слова показывает, начиная с какой частоты, слова будут выведены. К примеру, если это значение указано равным 5, то будут выведены лишь те слова, которые встречались не менее пяти раз.

Опция «Использовать stoplist» указывает, исключать ли из рассмотрения слова, приведённые в файле Stoplist.txt. В этом файле собраны часто встречающиеся слова, не несущие особой смысловой нагрузки, такие как «а», «в», «to», «at»…

В нижней области окна будут появляться файлы, уже обработанные программой.

Кнопка «Остановить» позволяет остановить подсчёт частот слов и вывести текущие данные.

Для запуска анализа нажмём «Частотный анализ».

Рис. 9

Здесь мы увидим слова, встречавшиеся в документах, расположенные в алфавитном порядке. В третьем столбце представлены частоты слов.

Для того чтобы упорядочить слова от самых частых к самым редким, необходимо нажать на название третьего столбца:

Рис. 10

Теперь можно увидеть наиболее используемые слова. Как можно видеть, самыми часто используемыми словами, несущими смысловую нагрузку, являются «people» и «america».

Нажав кнопку «Сохранить как таблицу STATISTICA», мы получим данные о словах, представленные в виде таблиц STATISTICA.

Рис. 11

Назад


    e-mail    eiioaeou контакты   обратная связь   карта сайта © StatSoft Russia 2012
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.