| |
Исследование гемограмм пациентов
Содержание
Исходные данные
Исходная таблица данных содержится в формате Excel.

Таблица содержит информацию о 150 пациентах.
Четыре столбца содержат значения показателей их гемограмм – колич ество эритроцитов (в 1012 /л), тромбоцитов (109 л), лейкоцитов (109 /л), гемоглобин (г/л).
Импорт из Excel в STATISTICA
Шаг 1. При попытке открытия файла в системе STATISTICA (через меню Файл/Открыть) программа предложит нам на выбор несколько вариантов.

Выберем второй пункт.
Шаг 2. Далее необходимо выбрать номер листа в таблице Excel, который содержит нужную нам информацию. Сделать это очень просто.

Выбреем Лист 1 и нажмём OK.
Шаг 3. Далее вам необходимо
• указать диапазон значений во внешнем файле данных, который будет импортирован,
• решить, надо ли импортировать имена наблюдений и переменных
• сохранить (или нет) формат ячеек из исходной таблицы

Поставим галочки во все поля и нажмём OK.
Шаг 4. Теперь в программе STATISTICA открыта таблица.

Сохраним её под именем Гемограмма.sta.
Шаг 4. Введём дополнительную информацию о переменных.
Для этого выберем в меню пункт Данные/Все спецификации переменных.

В появившемся диалоге Редактор спецификаций переменных можно: указать длинные имена, изменить типы данны, коды пропущенных данных, добавить новые переменные или удалить старые, и т.д…

Визуальный анализ
Вначале данные нужно увидеть…
Система STATISTICA включает широкий спектр графических методов для визуального представления результатов исследований. Все графические средства системы STATISTICA обеспечивают возможность выбора встроенного аналитического интерактивного метода анализа и содержат большой набор программ настройки, позволяющих пользователю интерактивно управлять отображением информации на экране.
Диаграмма рассеяния
Построим диаграмму рассеяния для переменной Тромбоциты. Сделать это очень просто.
Из медицинской практики известно, что увеличение числа тромбоцитов в крови может привести к тромбозу.
Для выявления больных со слишком большим уровнем тромбоцитов в крови, построим диаграмму рассеяния переменных Номер пациента и Тромбоциты.

Врач определяет критический уровень количества тромбоцитов в крови для проведения операции. Пусть это значение равно 250.
Проведём горизонтальную прямую, соответствующую данному значению.
Это можно сделать двумя способами.
Способ 1.
Выберем из раскрывающегося списка пункт Параметры графика. В появившемся окне перейдём на закладку Ось: Дополнительные риски.
Выберем Ось – Левая Х, укажем Положение = 250, поставим галочку в окне сетка.

Можно также настроить тип и толщину линии. Для внесения изменений нажмём на кнопку Сетка.

В итоге на диаграмме рассеяния отобразится прямая Тромбоциты = 250.

Способ 2.
Воспользуемся панелью Графические инструменты.
Выберем рисование стрелки, и проведём соответствующую прямую на графике

Как и раньше, можно настраивать опции построенного объекта.

Теперь выделим пациентов, количество тромбоцитов в крови которых превышает данный уровень.
Для этого воспользуемся средством Кисть.
Средство Кисть
Средство Кисть является очень удобным для визуального анализа данных.
Нажмём на кнопку 2M Закрашивание на панели инструментов.

Выделим точки, соответствующие наблюдениям, лежащим выше прямой Тромбоциты = 250.

Если мы теперь откроем таблицу Редактор данных графика, то отмеченные наблюдения будут выделены красным цветом.
Диаграмма Вороного
Построим диаграмму Вороного по переменным Гемоглобин и Тромбоциты. Сделать это очень просто.

На диаграмме Вороного значения двух переменных X и Y изображаются, как на диаграмме рассеяния, а затем пространство между отдельными точками данных делится границами, окружающими каждую точку данных, на области по следующему принципу: каждая точка области находится ближе к заключенной внутри точке данных, чем к любой другой соседней точке данных.
Приведем пример практического использования диаграммы Вороного.
Предположим, что на анализ поступил новый больной.
Для назначения лечения было бы полезно знать, какая гемограмма ему наиболее близка. Это можно сделать с помощью диаграммы Вороного.
Пусть в поступившей гемограмме указано значения: Тромбоциты=220 и Гемоглобин = 105. Проведём на графике соответствующие прямые; точка пересечения прямых будет соответствовать новому пациенту.

Выявим наблюдение, которое является «хозяином» области, в которое попадает данное наблюдение.
Для этого воспользуемся средством Кисть.

Описательный (дескриптивный) анализ гемограмм
Вычислим описательные статистики для переменных, содержащих информацию о гемограммах. Сделать это очень просто.
Шаг 1. Запуск модуля Основные статистики и таблицы.

Выберем пункт Описательные статистики. Нажмём OK.
Шаг 2. Выбор переменных

Шаг 3. На вкладке Дополнительно укажем интересующие нас статистики.

Нажав OK, получим таблицу с описательными статистиками.

Описательные статистики по группам
Достаточно часто возникает необходимость вычислить описательные статистики отдельно по каждой группе наблюдений.
Например, вычислим средние значения показателей гемограммы отдельно для каждой группы пациентов, а также для мужчин и для женщин.
Шаг 1. В диалоге Основные статистики и таблицы выберем пункт Группировка и однофакторный ДА.
В окне Внутригрупповые статистики и корреляции перейдём на вкладку Списки таблиц.

Шаг 2. Выберем группирующие переменные.

Шаг 3. Выберем зависимые переменные.

Нажмём на кнопку OK в диалоге Внутригрупповые статистики и таблицы.
В рабочей книге STATISTICA появится таблица, содержащая таблицу средних по группам.

Анализ выбросов
Выбросами являются резко выделяющиеся наблюдения, например, пациенты с избыточным числом тромбоцитов.
Выявление выбросов осуществляется посредством построения двумерных диаграмм размаха.
Построим диаграмму размаха по переменной Тромбоциты.
Выберем в меню пункт Графики/2M Графики/Диаграммы размаха. В появившемся окне перейдём на вкладку Дополнительно.

Укажем переменные.

Пока что мы не будем указать группирующую переменную.
Отметим, что на вкладке Дополнительно окна 2M Диаграмма размаха Вы можем настроить опции для выявления наблюдений – выбросов (например, Вы можете указать Коэффициент выбросов).
Нажмём OK в диалоге 2M Диаграмма размаха.

На диаграмме размаха отмечены четыре выброса – три «слишком больших» значения и одно «слишком маленькое».
Визуально анализируя диаграмму размаха, Вы можете получить представление об изменчивости переменной.
Определим, какие именно наблюдения являются выбросами. Один из способов нам уже известен – можно построить диаграмму рассеяния для переменных Номер наблюдения и Тромбоциты и при помощи средства Кисть выделить нужные наблюдения.
Опишем другой способ. Расположим наблюдения по убыванию переменной Тромбоциты.
Для этого выберем из меню пункт Данные/Сортировка.
В появившемся окне укажем параметры Ключа 1.

После нажатия на кнопку OK наблюдения в исходной таблице данных будут расположены в порядке убывания переменной Тромбоциты.

Теперь мы можем определить, какие наблюдения являются выбросами – это будут первые три и последнее наблюдение в таблице. Итак, «нестандартный» уровень тромбоцитов в крови выявлен у пациентов номер 71, 87, 79 и 97.
Теперь вновь вызовем диалог 2M Диаграмма размаха и зададим в окне Переменные в качестве группирующей переменной переменную Пол.

Отметим, что наблюдения – выбросы, отмеченные на этой диаграмме, отличаются от наблюдений-выбросов на диаграмме, построенной без разбиения на группы.
Например, значение Тромбоциты=300, являющее выбросом для наблюдений, рассмотренных вместе, оказывается «нормальным» при рассмотрении только группы женщин. Есть и примеры обратного: значение Тромбоциты= 73 оказывается выбросом для группы мужчин, но при рассмотрении всех наблюдений оно оказывается «нормальным».
Корреляционный анализ
Вычислим корреляции между переменными Var4 – Var7. Сделать это очень просто.
Корреляции Пирсона
Запустим модуль Основные статистики и таблицы. В появившемся окне выберем пункт Парные и частные корреляции.

Отобразится окно Парные и частные корреляции.

Нажмём на кнопку Квадратная матрица и укажем переменные.

После нажатия на кнопку OK в диалоге Парные и Частные корреляции в рабочую книгу добавится таблица с коэффициентами корреляции между указанными переменными.

Итак, почти все переменные попарно зависимы; исключение составляет пара Эритроциты – Тромбоциты.
Корреляции Спирмена и Кендалла
Шаг 1. Запустим модуль Непараметрическая статистика. Выберем пункт Корреляции Спирмена, тау Кендалла, гамма.

В появившемся диалоге Ранговые корреляции перейдём на вкладку Дополнительно.

Шаг 2. Зададим переменные.

Шаг 3. Нажмём на кнопку Спирмена R в диалоге Ранговая корреляция.

Теперь вернёмся в окно Ранговая корреляция и нажмём на кнопку Тау Кендалла.

Обратите внимание: коэффициент корреляции Спирмена между переменными Эритроциты и Тромбоциты оказался статистически значимым, в то время как коэффициенты корреляции Кендалла – нет. Это объясняется тем, что коэффициент корреляции Спирмена сильнее реагирует на несогласие ранжировок.
В заключении визуально проанализируем зависимость между переменными. С этой целью построим Матричный график.
Нажмём на кнопку Матричный график в диалоге Ранговые корреляции.

Другой способ построения подобного графика: можно выбрать из меню пункт Графика/Матричные графики.
| |