| |
Пример 3. Частотный анализ речей Б. Обамы.

Рис. 1
В данном окне пользователь может выбрать источник текстовых данных, с которыми он будет работать в дальнейшем.
Мы будем работать с файлами, расположенными локально (на компьютере пользователя). Для этого нажмём кнопку «Выбрать файлы на компьютере».

Рис. 2
В данном окне пользователь может выбрать файлы на компьютере, которые он желает проанализировать. Для этого необходимо нажать кнопку «Добавить файл»:

Рис. 3
и выбрать соответствующие файлы. Возможно выбрать сразу несколько файлов.
После выбора файлов их имена будут отображены в рабочей области окна:

Рис. 4
При желании, пользователь может удалить некоторые файлы из списка (например, при случайном выборе ненужного файла). Для этого стоит использовать кнопки «Удалить файлы» и «Очистить». После выбора нужных файлом нажимаем кнопку «Далее» и попадаем в следующее окно.

Рис. 5
В данном окне пользователь имеет возможность выбрать для анализа файлы, которые он до этого указал на компьютере вместе с файлами, скачанными из интернета.
Для переноса файлов в область анализа (большую область справа) необходимо выделить файлы:

Рис. 6
И нажать соответствующую кнопку «>>»:

Рис. 7
После этого следует нажать кнопку «Далее» для перехода к окну начального анализа.

Рис. 8
Значение минимальной частоты слова показывает, начиная с какой частоты, слова будут выведены. К примеру, если это значение указано равным 5, то будут выведены лишь те слова, которые встречались не менее пяти раз.
Опция «Использовать stoplist» указывает, исключать ли из рассмотрения слова, приведённые в файле Stoplist.txt. В этом файле собраны часто встречающиеся слова, не несущие особой смысловой нагрузки, такие как «а», «в», «to», «at»…
В нижней области окна будут появляться файлы, уже обработанные программой.
Кнопка «Остановить» позволяет остановить подсчёт частот слов и вывести текущие данные.
Для запуска анализа нажмём «Частотный анализ».

Рис. 9
Здесь мы увидим слова, встречавшиеся в документах, расположенные в алфавитном порядке. В третьем столбце представлены частоты слов.
Для того чтобы упорядочить слова от самых частых к самым редким, необходимо нажать на название третьего столбца:

Рис. 10
Теперь можно увидеть наиболее используемые слова. Как можно видеть, самыми часто используемыми словами, несущими смысловую нагрузку, являются «people» и «america».
Нажав кнопку «Сохранить как таблицу STATISTICA», мы получим данные о словах, представленные в виде таблиц STATISTICA.

Рис. 11
| |