| |
Система Text Analizer
Введение
К настоящему моменту в силу стремительного развития сети интернет скопилось огромное количество текстовой информации. Естественно, у многих исследователей и аналитиков появляется желание извлечь толк из этой информации. Информация, представленная в текстовом виде, трудна для анализа и может быть разбросана по сети Интернет.
Система Text Analizer предназначена в первую очередь для более удобного анализа представления текстовых данных. С помощью данной системы пользователь может с лёгкостью скачать себе на компьютер все документы, расположенные по ссылкам с выбранной им страницы. Это может быть полезно, когда пользователя интересует содержимое статей, ссылки на которые приведены на главной странице некоторого ресурса. После этого пользователь может просмотреть частоты, с которыми встречаются различные слова и провести более серьёзные аналитические исследования в системе STATISTICA.
Также присутствует возможность обрабатывать файлы, уже находящиеся на компьютере пользователя - процедура анализа будет такой же, но изменится лишь способ получения данных.
Пользователь может обрабатывать как обычные текстовые данные (в файлах *.txt), так и файлы в форматах html и xml. Также есть возможность работать с документами Microsoft Word (*.doc) и Portable Document Format (*.pdf), причем для этого не требуется наличие специализированных программ на подобие Microsoft Word или Adobe Reader.
Система может быть использована для оценки имиджа компании в СМИ, объективного анализа текстовой информации.
Перейдём к примерам использования.
Пример 1. Анализ сайта www.statsoft.ru
На начальном этапе нам предлагается выбрать источник данных:

Рис. 1
Нажмём кнопку «Скачать файлы», так как мы будет получать информацию прямо из Интернет. При этом мы попадаем в окно настроек скачивания:

Рис. 2
После этого мы вводим в верхнем правом углу адрес http://www.statsoft.ru/ (адрес должен быть указан точно и полностью). Также мы указываем, что минимальная глубина скачки равна 2 - мы собираемся скачать не только главную страничку, но и те странички, на которые она ссылается:

Рис. 3
После этого можно начать скачивание, нажав кнопку «Скачать». Внизу окна будут отображаться файлы, обрабатываемые в данный момент времени:

Рис. 4
После завершения скачивания пользователь увидит следующее информационное окно:

Рис. 5
Затем, нажав кнопку «Далее» мы попадаем в окно выбора файлов, которые будут проанализированы:

Рис. 6
В левой половине окна мы видим две области - в верхней области приведены скачанные из Интернет странички, нижняя область предназначена для файлов, расположенных на компьютере. При желании, пользователь может обрабатывать эти два типа файлов единым потоком.
На данном этапе пользователь может выбрать, какие из скачанных файлов он желает анализировать. Сейчас мы будем анализировать все скачанные файлы, поэтому выберем все файлы в верхней области и нажмём соответствующую кнопку «>>». После этого в правой области окажутся названия всех страничек:

Рис. 7
Затем нажимаем кнопку «Далее» и попадаем в окно анализа:

Рис. 8
Здесь мы непосредственно приступаем к обработке файлов. В самом окне пользователь может выбрать минимальную частоту слова. То есть, выведены в итоге будут слова, встречавшиеся не реже, чем столько раз (слова, встречавшиеся по 1 разу). Также через меню Инструменты->Настройки можно изменить некоторые другие настройки:

Рис. 9
Нажмём в окне анализа кнопку «Частотный анализ» для подсчёта частот вхождения отдельных слов. Во время подсчётов в нижней области будет показана информация о ходе выполнения обработки:

Рис. 10
Итогом будет являться таблица с частотами слов:

Рис. 11
Теперь можно посмотреть, какие слова чаще всего встречаются в выбранных файлах. Для этого достаточно упорядочить таблицу по последнему столбцу, нажав несколько раз на название последнего столбца:

Рис. 12
Далее можно просмотреть, с какой частотой встречались слова разной длины в разных файлах, нажав кнопку «Посмотреть статистику»:

Рис. 13
Также можно сохранить частоты в файлах STATISTICA, нажав кнопку «Сохранить как таблицу STATISTICA»:

Рис. 14
Теперь у пользователя есть возможность применения всех возможностей пакета STATISTICA для обработки полученных данных.
Пример 2. Анализ файлов, расположенных на компьютере пользователя
Теперь в стартовом окне нажмём на кнопку «Выбрать файлы на компьютере». После этого мы попадём в окно выбора:

Рис. 15
Нажав кнопку «Добавить файл», мы сможем выбрать файлы, расположенные на компьютере:

Рис. 16
Мы в данном примере будем работать с показанными выше файлами. Первые 10 из них - часть статей Reuters:

Рис. 17
Файл Version_9_Features.pdf - описание новых возможностей STATISTICA Version 9:

Рис. 18
А файл Курсы StatSoft Russia.doc - информация о курсах, проводимых StatSoft Russia:

Рис. 19
Итак, мы выбрали все файлы:

Рис. 20
После этого нажимаем кнопку «Далее» и попадаем в уже знакомое нам по первому примеру окно:

Рис. 21
Далее поступаем аналогично первому примеру - переносим файлы в рабочую область, выделив их и нажав соответствующую кнопку «>>».
Дальнейшие наши действия также аналогичны проделанным в примере №1 - нажимаем кнопку «Далее» и в окне анализа нажимаем кнопку «Частотный анализ». Программа автоматически преобразует выбранные файлы к подходящему формату (текстовому) и обработает их. Вот что мы получим в результате:

Рис. 22
| |