Мы предлагаем вашему вниманию материалы главы 11 книги Н.Бейли "Математика в биологии и медицине", Москва, Мир, 1970: Глава 11 Математические методы медицинской диагностикиХотя книга написана сравнительно давно и не учитывает современных достижений компьютерных технологий анализа данных, она служит хорошим введением в рассматриваемую нами проблематику. Содержание2. Дифференциальный диагноз в элементарном случае выбора между двумя заболеваниями 3. Дифференциальный диагноз в общем случае выбора между несколькими заболеваниями 4. Использование небольших выборок
1. ВведениеВряд ли кто станет отрицать, что диагностика играет в медицине важнейшую роль и что постановка диагноза требует от врача большого мастерства, знаний и интуиции. Точность диагноза и быстрота, с которой его можно поставить, зависят, разумеется, от очень многих факторов: от состояния больного, от имеющихся данных о симптомах и признаках заболевания и результатах лабораторных анализов, от общего объема медицинской информации о наблюдении таких симптомов при самых различных заболеваниях и, наконец, от квалификации самого врача. Своевременно поставленный точный диагноз часто облегчает выбор метода лечения и значительно повышает вероятность выздоровления больного. Исходя из всех этих соображений, вполне естественно попытаться определить условия, при которых диагноз может быть поставлен максимально быстро и точно. В течение многих веков врачи с переменным успехом предпринимали попытки решить эту задачу. Однако в последние годы благодаря применению современных методов лечения и диагностики, основанных на новейших достижениях науки и техники, возможности получения успешных результатов значительно возросли. Поэтому важно найти точные методы описания, исследования, оценки и контроля процесса постановки диагноза. Наилучший путь к точности и логике рассуждений при решении любой задачи – это математический подход. В принципе этот подход можно выбирать независимо от того, насколько труден и сложен рассматриваемый вопрос. Если мы имеем дело с большим числом взаимозависимых факторов, обнаруживающих значительную естественную изменчивость, то для достаточно эффективного описания сложной схемы их влияния существует лишь один способ – использование соответствующего статистического метода. Если число факторов или число категорий данных очень велико, то желательно, или даже необходимо, использовать компьютер, чтобы искомые результаты можно было получить за достаточно короткое время. Такой подход ни в коей мере не умаляет точно короткое время. Напротив, он открывает еще больший простор для проявления этих качеств, освобождая врача от необходимости заниматься такими проблемами, которые можно сформулировать в численной и логической форме и, следовательно, решать математическими методами и с помощью вычислительной техники. Даже если бы практическое использование вычислительных машин для диагностики показалось бы кому-нибудь нежелательным, это все равно не умалило бы важности математического анализа рассматриваемых процессов, поскольку такой анализ должен значительно расширить и углубить наши знания. Имеющиеся в настоящее время данные свидетельствуют о том, что вычислительные машины, несомненно, могут играть важную роль при постановке диагноза. Главное состоит в том, чтобы определить возможности вычислительной техники, и в дальнейшем мы рассмотрим этот вопрос более подробно. В данный момент укажем лишь некоторые важные направления: постановка дифференциального диагноза в соответствующих условиях; оценка точности диагнозов, которые ставят врачи, с целью повышения общего уровня диагностики; создание учебных пособий для студентов, а так же сбор, обобщение и обработка клинических данных для квалифицированного использования их врачами при постановке диагноза. В настоящей главе будут кратко изложены вопросы построения математических моделей, описывающих некоторые аспекты процесса постановки диагноза, и применения их для оказания помощи врачам при оценке хотя бы некоторых сложных и крайне изменчивых медицинских данных. Разработка методов диагностики с помощью вычислительных машин находится пока еще на самой начальной стадии, однако, исследователями, работающими в ряде стран, уже получены весьма обнадеживающие результаты, и дальнейшие изыскания в этой области следует считать весьма перспективными. Разумеется, концентрация внимания на постановке дифференциального диагноза является во многих отношениях чрезмерно упрощенным или, во всяком случае, ограниченным подходом к проблеме в целом. Мы будем предполагать, что все альтернативные диагнозы, из которых нужно выбрать один, четко и однозначно определены. Однако на практике дело обстоит совсем не так (во всяком случае, иногда). Мнения специалистов о наилучших способах классификации болезней (в отличие от распределения больных по заранее определенным классам) нередко расходятся, и новые данные могут потребовать пересмотра существующих схем. С этой проблемой связаны, естественно, вопросы медицинской таксономии, и, возможно, потребует изучить на широкой основе применение методов числовой таксономии. Кроме того, успех лечения в каждом конкретном случае во многом зависит от предварительного диагноза. Этот диагноз может быть пересмотрен, если метод лечения, который считался наилучшим, оказывается неэффективным или если больной реагирует на него неожиданным образом. Фактически реакцию на лечение можно рассматривать как проверку правильности предварительного диагноза, и она служит дополнительным источником информации. Разумеется, этот способ широко применяется в клинической практике. Однако главное здесь в том, что нам может потребоваться математическое описание всего процесса – классификации болезней, постановки дифференциального диагноза и анализа результатов лечения, прежде чем при таком подходе мы сможем добиться сколько-нибудь значительных успехов. В литературе имеется довольно много статей по этому вопросу, однако по-настоящему авторитетного руководства еще не написано. Заслуживает внимания очень интересный отчет о конференции, состоявшейся в Мичиганском университете в 1964 г. [9], в котором дается общий обзор широкого круга проблем, связанных с медицинской диагностикой. Отдельные статьи на эту тему имеются в трудах Рочестерских конференций [4-6]. Мы не собираемся давать здесь полный перечень работ в этой области, но, помимо названных книг, сошлемся в дальнейшем еще на несколько важных и полезных статей.
2. Дифференциальный диагноз в элементарном случае выбора между двумя заболеваниямиРассмотрим прежде всего простейшую задачу – постановку дифференциального диагноза в том случае, когда требуется произвести между двумя заболеваниями. Допустим, что имеется стандартный список симптомов, признаков, данных лабораторного обследования, данных анамнеза и т.д., наличие которых обычно проверяют у обследуемых больных, если у них подозревается одно из этих двух заболеваний. Рано или поздно в каждом случае ставится окончательный диагноз. Такого рода списки содержат определенный объем данных, относящихся к каждой из этих болезней. При поступлении нового больного лечащий врач может просмотреть имеющиеся списки симптомов и, исходя из них, поставить диагноз, который кажется ему наиболее вероятным. Такой просмотр перечня симптомов обычно производится преимущественно по памяти, хотя за подтверждением первых впечатлений, основанных на интуиции и опыте, врач может обращаться и к количественным сводным данным. Итак, что же можно (или нужно) было бы сделать, чтобы посредством извлечения и использования максимального количества статистической информации, содержащейся в таких списках, найти точную математическую оценку ситуации? Более детально этот вопрос обсуждается в следующем разделе, где рассматривается более широкая проблема дифференциальной диагностики одного из нескольких заболеваний. Здесь же мы остановимся на одном простом, однако весьма успешном численном методе дифференциальной диагностики и в случае двух заболеваний, основанном на некоторых идеях статистического дискриминантного анализа. Согласно этому методу, изучаемые объекты распределяются между двумя группами на основе некоторого показателя, равного сумме нескольких надлежащим образом взвешенных компонент (очков), каждая из которых измеряет какую-то конкретную характеристику. Если сумма очков, вычисленная для данного объекта, превышает некоторую пороговую величину, то этот объект попадает, скажем, в первую группу, а в противном случае – во вторую. Разумеется, этот процесс небезупречен, и возможно появление ошибок. Однако для весовых коэффициентов и порога можно найти такие оптимальные значения, чтобы возможность ошибочного диагноза была сведена к минимуму. Крукс, Мёррей и Уэйн [2] применяли этот метод при диагностике тиреотоксикоза. Хотя клиническая картина этого заболевания не очень сложна, нередко встречаются случаи, когда либо диагноз сомнителен, либо мнения врачей расходятся, либо один и тот же врач со временем изменяет свое мнение. Поэтому было решено разработать простой метод численной оценки, с тем чтобы получить возможность более точной постановки диагноза, особенно в сомнительных случаях. В Таблице 1 приведен перечень признаков и симптомов, которым уделялось особое внимание, а также число очков для каждого признака или симптома при его наличии или отсутствии. Первоначально число очков для каждого отдельного признака или симптома получали не на основе сложных статистических исследований, а исходя из более или менее интуитивной и эмпирической оценки имеющихся данных. Те характеристики, которые считались более важными для диагностики, получали большее число очков.
Таблица 1. Число очков для признаков и симптомов у больных с подозрением на тиреотоксикоз
Классификация производилась таким образом, что "наличие" признака всегда отмечалось тем или иным положительным числом, а "отсутствие" – отрицательным (нули означают, что в данном случае ни то ни другое не имеет диагностического смысла). Затем в таблице были произведены некоторые изменения, например, были уменьшены очень большие значения, с тем, чтобы ослабить влияние колебаний результатов, получаемых различными врачами. После этого были выбраны две типичные группы индивидуумов, и для каждой был произведен подсчет суммарного числа очков. В одной группе было 83 больных, несомненно, страдающих тиреотоксикозом, а во второй – 99 человек, у которых не было тиреотоксикоза. Одни представители второй группы были совершенно здоровы, а у других были различные заболевания, в том числе простой зоб. Для каждого индивидуума в соответствии с принятыми правилами вычислялась сумма очков. Естественно, что наблюдались значительные колебания этой суммы, однако важно то, что весь ряд чисел, полученных для группы больных тиреотоксикозом, оказался выше соответствующего ряда для группы индивидуумов, не страдающих этим заболеванием. После этого были внесены соответствующие изменения, с тем чтобы добиться наибольшего различия между этими двумя группами и исключить чрезмерное влияние отмечавшихся ранее колебаний в числе очков, приписываемых различным наблюдателями. В Таблице 1 приведены окончательные значения весовых коэффициентов для отдельных признаков и симптомов. При использовании этих измененных весовых коэффициентов общее число очков для достоверных случаев тиреотоксикоза колеблется в пределах от +21 до +42, а для группы индивидуумов, не страдающих тиреотоксикозом, в пределах от –16 до +10. Таким образом, оказалось, что все больные, у которых число очков составляет не менее +21, страдают тиреотоксикозом, а у индивидуумов с числом не более +10 этого заболевания нет. Следовательно, деление больных на две группы, основанное на сумме очков, полностью оправдало себя. Хотя в данном случае всех индивидуумов можно было совершенно четко отнести к той или иной группе, при значительно большем объеме выборок следует ожидать появление некоторых неопределенных случаев. Лакмусовой бумажкой, позволяющей проверить надежность эмпирических методов такого рода, служит их пригодность или непригодность в применении к новым данным. Проявляя достаточную изобретательность при обработке определенной совокупности данных, всегда можно разработать правила прогнозирования, обладающие поразительной точностью. Справедливость предложенных критериев была соответствующим образом проверена на совершенно другой группе больных. Казалось бы, что нужно применить эти методы подсчета числа очков к новым больным, часть которых страдает тиреотоксикозом, а другая часть - нет, и убедиться в том, что правила, специально разработанные для первоначальных групп, по-прежнему приемлемы. Тщательные исследования методами математической статистики требовали бы именно такого подхода. Однако Крукс, Мёррей и Уэйн пошли по более трудному пути. Они отобрали 118 случаев, в каждом из которых врачи испытывали затруднения при постановке диагноза. Тех больных, относительно которых у врачей никаких сомнений не возникал, исследователи не учитывали, а сконцентрировали все внимание на сомнительных случаях, в которых окончательный диагноз был установлен только после продолжительных наблюдений и после учета результатов лечения. В 51 случае врачи, в конце концов, пришли к выводу, что имеют дело с тиреотоксикозом. В 88% этих случаев число очков составляло не менее +20, а в остальных 12% случаев оно лежало в области сомнительных значений между +11 и +19. Из остальных 67 больных, у которых тиреотоксикоз был врачами исключен, 88% получили число очков +10 и менее, около 10,5% - число очков, лежащее в области сомнительных значений от +11 до +19, и лишь один случай (1,5%) ошибочно попал в область, характерную для тиреотоксикоза. С аналогичной точностью (около 85%) диагноз был установлен при оценке состояния 171 больного и в четырех других медицинских учреждениях. Особенно важно, что такой простой математический метод позволил точно определить больных, страдающих тиреотоксикозом, от других больных именно в тех случаях, когда клиническая оценка заболевания была сопряжена с трудностями. очевидно, что в тех случаях, когда врач может быстро и легко принять правильное решение сам, применять вычислительные методы ни к чему. Но если этот метод сможет помочь специалисту прийти к определенному выводу в тех случаях, когда сам он затрудняется в постановке диагноза, то это может иметь большое практическое значение. Описанный здесь численный метод можно сделать несколько более точным, проведя полный статистический анализ с использованием дискриминантной функции. Насколько известно автору, такая работа выполнялась на материале тиреотоксикоза, однако к моменту написания книги результаты еще не были опубликованы. Следует ожидать, что они окажутся примерно теми же, но точность их будет выше. Поскольку метод дискриминантых функций трудно поддается обобщению, мы не будем останавливаться здесь на его математических деталях, а в следующем разделе покажем, чего можно достигнуть, не обращаясь к таким высоким материям.
3. Дифференциальный диагноз в общем случае выбора между несколькими заболеваниямиЧасто врач должен произвести выбор между несколькими возможными диагнозами. В этом случае разработать удовлетворительную эмпирическую систему подсчета очков, аналогичную описанной в предыдущем разделе, крайне трудно. Кроме того, отсутствие четко сформулированной исходной математической модели сильно осложняет интерпретацию и оценку результатов. Разумеется, можно было бы попытаться использовать метод дискриминантных функций, о котором говорилось в предыдущем разделе, но при этом в свою очередь возникает ряд новых проблем. Прежде всего, при классическом подходе к делению больных на две группы предполагается, что корреляционные матрицы отмеченных симптомов в каждой группе одинаковы и что распределения являются многомерными нормальными. Первое допущение не имеет существенного значения, однако, позволяет упростить математические выкладки. Вполне можно рассмотреть более общий случай, когда корреляционные матрицы неодинаковы, но он почти наверняка потребует большего объема вычислений на ЭВМ. Допущение о многомерном нормальном распределении также вряд ли приемлемо в общем случае. Еще более серьезные затруднения возникают при обобщении метода дискриминантных функций на случай нескольких групп (если их нельзя расположить в определенном однозначном линейном порядке и если не выполняются допущения о многомерном нормальном распределении и равенстве корреляционных матриц). Можно было бы использовать обобщенный показатель расстояния Махаланобиса, однако и в этом случае возникает много затруднений в применении теории и интерпретации получаемых результатов. Однако существует целый ряд статистических методов, которые стоило бы испробовать. Масуяма [12] перечисляет 11 методов, но из них только три-четыре существенно отличаются друг от друга. По мнению автора, один-два метода обладают значительными преимуществами. Одним из них является анализ вероятностей появления отдельных симптомов при определенных заболеваниях, позволяющий вычислить вероятность того, что данный больной страдает определенным заболеванием, относящимся к рассматриваемой группе (см., например, [11]). По существу это так называемый байесовский подход (по названию одного правила теории вероятностей, носящего имя Томаса Байеса). Поскольку основные идеи выражаются через простые вероятности, не представляет труда описать исходную математическую модель и понять смысл практических результатов. Рассмотрим этот метод более детально. Допустим, что рассматривается ограниченная группа d различных заболеваний (D1, D2…, Dd) и что каждый больной страдает только одним из них (т.е. из этого упрощенного описания исключается более сложный случай сочетания нескольких заболеваний). Допустим также, что имеется список s признаков, симптомов или результатов лабораторных анализов (на основе которых обычно получают необходимую информацию), обозначаемых S1, S2, …, Ss. Часто бывает удобно рассматривать всю совокупность признаков, симптомов и т.д.; для этой цели используется символ S без индекса. Пока мы будем считать, что все симптомы дискретны, т.е. каждый из них относится к одному из двух или нескольких конкретных классов (например, "наличие" и "отсутствие" признака в случае простой дихотомии). Допустим далее, что за прошлые годы накоплен обширный материал по всем этим заболеваниям, и поэтому для любого данного заболевания Dj можно задать вероятность P (S | Dj) наблюдения определенного симптомокомплекса S. Если этот материал достаточно представителен, то можно также определить вероятность P(Dj) того, что больной, выбранный случайным образом, страдает заболеванием Dj; эта вероятность, определяемая еще до того, как будет принято во внимание клиническое состояние данного больного, является априорной вероятностью наличия заболевания Dj. Хотя врач, производящий обследование больного, может и не пользоваться этими статистическими категориями при обдумывании возможного диагноза, он скорее предположит какое-нибудь распространенное заболевание, чем заболевание, встречающееся крайне редко. Далее врач сообщает информацию о симптомах, наблюдаемых у данного больного. Вполне возможно, что предварительный диагноз будет поставлен довольно быстро, но при этом врач нередко будет иметь в виду и другие возможности. В конце концов, наступает момент, когда накоплено достаточное (во всяком случае, на данный момент) количество существенной информации. Эти данные характеризуют определенный симптомокомплекс S. Для того чтобы немедленно начать лечение, и, возможно, назначить специальные дополнительные проверки, необходимо поставить предварительный диагноз. выражаясь математическим языком, врачу нужно знать вероятность каждого заболевания при данном симптомокомплексе, т.е. P (Dj | S). Это по существу просто численный способ описания того, что происходит в каждодневной клинической практике. Если заболевание D1 диагностируется с большой уверенностью, то вероятность P (D1 | S) будет относительно велика, а все остальные вероятности будут значительно меньше (возможно, в 10 или 100 раз). Если же два заболевания D1 и D2 кажутся почти одинаково возможными, а все остальные исключаются, то каждая из вероятностей P (D1 | S) и P (D2 | S) будет равно примерно 0,5, а все остальные вероятности будут близки к нулю и т.д. Обычно уверенность врача в правильности поставленного им диагноза покоится на его общем опыте и субъективном мнении. Но последние должны всегда основываться в конечном счете на накопленные ранее знаниях или клинических данных (наблюдавшихся им лично или другими врачами и опубликованных в медицинских журналах и руководствах), а также на данных, полученных в результате обследования больного. Известно, что апостериорная вероятность P (Dj | S) пропорциональна произведению априорной вероятности P (Dj) на функцию правдоподобия P (S | Dj), т.е.: P (Dj | S) ~ P (Dj) P (S | Dj). (1) Так как сумма всех апостериорных вероятностей для различных заболеваний должна быть равна единице, более точно выражение (1) можно записать в виде:
По существу это формула Бейеса, позволяющая вычислить вероятность справедливости некоторой гипотезы на основании ее априорной вероятности и некоторых эмпирических данных. Этот метод в строгом смысле оправдан, только если альтернативные гипотезы (в данном случае заболевания) имеют априорные вероятности. Однако всегда имеется возможность выбрать модель статистического вывода, в которой априорные вероятности существуют и задаются соответствующими правилами даже при полном отсутствии информации. В принципе апостериорную вероятность любого заболевания вычислить совсем нетрудно, так как на основе имеющегося материала можно вычислить как P (Dj), так и P (S | Dj). Однако к величине P (S | Dj) необходимо относиться с известной осторожностью, так как даже при наличии обширного материала он может содержать мало данных о частоте появления определенного симптомокомплекса S. Так, если имеется s различных симптомов и все они являются дихотомическими, то число различных симптомокомплексов будет равно 28. При s = 20 это число столь велико (>106), что применение данного способа оказывается невозможным. Поэтому обычно необходимы некоторые упрощающие предположения. Чаще всего принимается допущение о том, что отдельные симптомы имеют независимые распределения. Это допущение не настолько серьезно, как могло бы показаться. Так, Ван Верком и Бродмен [16] пришли к заключению, что в их материале отсутствует сколько-нибудь значительная корреляция между различными симптомами. Неопубликованные работы, выполненные автором совместно с Дж. Андерсеном, подтверждают эту точку зрения, но, конечно, необходимо исследовать этот вопрос более тщательно. Если считать, что s симптомов статистически независимы, то можно записать соотношение:
и на основе имеющегося материала с достаточно высокой точностью вычислить вероятность P (S | Dj). Хотя для простоты мы ввели предположение о дискретности симптомов, это ограничение можно легко ослабить и распространить наш метод на непрерывные величины. Конечно, для описания непрерывных переменных можно было бы задать некоторую "нормальную" область значений этих величин, а все значения лежащие за пределами этой области, считаются "аномальными". Тогда мы имели бы простую дихотомию типа "наличие" и "отсутствие" признака. Однако при этом теряется большой объем статистической информации, и по возможности нужно использовать непрерывное распределение. Допустим, что k-й симптом является непрерывным с плотностью распределения fkj(x) для j-го заболевания. Это означает, что вероятность наблюдения величины, лежащей в интервале (x, x + dx), равна fkj(x)dx. При подстановке этого выражения в выражение (3) в формуле P (S | Dj) появляется сомножитель dx. Этот сомножитель появляется также в числителе и в каждом члене знаменателя правой части выражения (2), а поэтому он сокращается и не вызывает никаких осложнений. Таким образом, переход к непрерывным случайным величинам связан лишь с заменой дискретной вероятности соответствующей непрерывной плотностью распределения, вычисленной для рассматриваемой величины. Конечно, приведенное выше вероятностное описание процесса постановки диагноза крайне упрощено и в некоторых отношениях, возможно, даже несколько наивно. Тем не менее, как мы вскоре увидим, в ряде частных случаев оно оказывается плодотворным. Рассмотрим теперь одно из наиболее серьезных возражений против этого метода. Дело в том, что врач, сталкиваясь с реальным больным, часто может поставить диагноз на основе самых незначительных симптомов, заметных лишь опытному наблюдателю, не вдаваясь в анализ механизма развития этих симптомов. В то же время при вычислении вероятностей, которое возможно лишь на основе тщательно зарегистрированных данных, теряется многое из того, что могут дать непосредственные наблюдения. По поводу этого возражения необходимо сделать два замечания. Во-первых, при определенных условиях с помощью математической оценки можно получить такие же (если не лучшие) результаты, к каким врач приходит сам, и, следовательно, при такой оценке учитывается практически все, что имеет диагностическое значение. Во-вторых, если "вычисленные" диагнозы (т.е. диагнозы, поставленные на основании вычисления вероятностей) оказываются менее точными, то это означает, что либо объем обрабатываемой информации значительно меньше, чем при постановке диагноза врачом. В обоих случаях выявление и устранение недочетов даст возможность получить новые знания о процессе постановки диагноза и, вполне возможно, разработать значительно лучший вычислительный метод. Одним из самых первых и наиболее интересных приложений описанного здесь метода была работа Уорнера, Торонто, Визи и Стефенсона [15], посвященная врожденным порокам сердца. Авторы пользовались перечнем 33 заболеваний и 50 различных дискретных симптомов. Таким образом, исходная матрица "симптомы – заболевания" содержала 1650 элементов. Ясно, что вычисление данных для каждого нового больного с помощью уравнений (2) и (3) требует большого объема хотя и элементарных, но утомительных и поглощающих много времени арифметических вычислений. Поэтому для этой цели крайне желательно и даже необходимо применять электронную вычислительную машину. В связи с этим возникает важный вопрос использования в будущем вычислительных машин для решения этих задач. Поскольку число поддающихся наблюдению симптомов, и особенно объем лабораторных тестов, непременно увеличивается, вскоре может наступить такой момент, когда даже опытный врач не сможет всей той информацией, которую он будет иметь в своем распоряжении. Таким образом, мы сталкиваемся с парадоксальной ситуацией – потенциально у нас есть возможность получить значительно более точные результаты, но на самом деле использовать ее мы не можем и даже оказываемся в худшем положении именно из-за наличия очень большого количества данных. Применение вычислительной техники для хранения и обработки исходных данных, а также для вычисления вероятностей приобретает в этой ситуации кардинальнейшее значение. По данным Уорнера и др. [15], использование вероятностного метода оказалось весьма успешным. Правильность предположительных диагнозов, поставленных, с одной стороны, врачами – кардиологами, а с другой – с помощью вычислительной машины, проверялась затем по данным катетеризации сердца или хирургического вмешательства. При анализе 36 случаев оказалось, что вычисленный наиболее вероятный диагноз совпадает с истинным диагнозом не реже, чем заключения, сделанные на основе тех же клинических данных тремя опытными врачами – кардиологами. Эти поразительные результаты убедительно подтвердили возможности математики и вычислительной техники при правильном выборе области их приложения. К сожалению, Уорнер и его коллеги не подвергли результаты сравнения клинических и вычислительных диагнозов тщательному статистическому анализу. Позже Гутсафсон и др. (см. [5]) выполнили вполне аналогичную работу на группе из 38 больных с врожденными пороками сердца. В этой работе использовался значительно измененный вариант первоначальной программы для вычислительной машины. Авторы приводят сравнительные цифры, характеризующие правильность диагнозов, поставленных вычислительной машиной и разными врачами на основании перечня симптомов, наблюдавшихся у каждого больного. Шести врачам – двум педиатрам – кардиологам, двум терапевтам – кардиологам, педиатру и врачу хирургу (специалисту по сердечно-сосудистой хирургии) – предложили составить список всех возможных диагнозов в порядке убывания вероятностей, а программа для вычислительной машины была составлена таким образом, чтобы на печать выдавались четыре наиболее вероятных диагноза (в том же порядке). Полученные результаты, приведенные в Таблице 2, достаточно наглядны.
Таблица 2. Сравнение правильности диагнозов, поставленных вычислительной машиной и разными врачами
Так, диагноз, выбранный вычислительной машиной в качестве наиболее вероятного, был правильным в 63% случаев, диагноз, выбранный вторым, оказался правильным в 16% случаев, и в 18% случаев правильный диагноз упоминался в числе возможных. Только в 3% случаев правильный диагноз вообще не был упомянут. Каждому врачу и машине ставили по три очка за правильный диагноз, выбранный первым, по два – за правильный диагноз, выбранный вторым, и по одному – за упоминание правильного диагноза. Хотя можно считать, что в данном случае применение вычислительной машины оказалось довольно успешным, авторы подчеркивают, что опытный педиатр-кардиолог, работающий на своем собственном материале, поставил бы правильный диагноз в 90% случаев. Но при этом следует учесть, что он располагал бы такими материалами, как электрокардиограммы и рентгеновские снимки, которые не были включены в перечень симптомов, так что ни вычислительная машина, ни шесть врачей не могли ими воспользоваться. Авторы отмечают также, что, хотя специалисты, принимавшие участие в эксперименте, и смогли обработать всю полученную ими информацию, менее опытные врачи не справились бы с этой задачей. На основании этих результатов делается вывод, что даже при современном состоянии вопроса математический метод позволяет извлечь из количественных записей столько же (если не больше) информации, сколько ее извлекает самый опытный врач. В то же время в некоторых случаях врачи имеют то преимущество, что они могут использовать материал, который пока еще трудно ввести в вычислительную машину. Очевидно, необходимо приложить все усилия к тому, чтобы найти способы введения в машину этих дополнительных данных. Очень близкие результаты (главным образом в области кардиологии) были получены несколькими исследователями в различных странах (см., например, работу К. Такахаши и др. [14] и статью А.А. Вишневского, И.И. Артоболевского и М.Л. Быковского [17]); все они использовали упоминавшийся нами ранее байесовский подход или какой-либо аналогичный статистический метод. Мы не собираемся обсуждать здесь достоинства и недостатки различных методов, хотя в начале этого раздела были высказаны некоторые замечания по этому поводу и в разделе 5 будет рассмотрен другой подход. Определенные успехи достигнуты также в области идентификации бактерий, выделяемых из исследуемого материала, где используются по существу те же принципы (см. [13]). Так, из существующих данных можно установить частоту обнаружения определенных стандартных признаков у самых разнообразных бактерий. При появлении новой неопознанной культуры производится ряд исследований и осуществляется предварительная идентификация. Если предварительные данные оказываются недостаточно надежными, производятся дополнительные опыты до тех пор, пока не будет получено приемлемое заключение. В современной микробиологической практике этот процесс обычно основывается на субъективном суждении и личном опыте, и опытный микробиолог может довольно быстро получить правильные результаты. Однако существуют более сложные ситуации, когда результаты лабораторных тестов сильно варьируют. В этих случаях может оказаться целесообразным ставить вероятностный диагноз на основе какой-то ориентировочной группы тестов. Если удовлетворительная дифференциация не достигается, то можно подобрать более действенную группу тестов для дальнейшего исследования материала. Эти идеи столь же важны и в области диагностики, где обычно желательно свести к минимуму объем исследований, требуемых для принятия решения (особенно если некоторые тесты болезненны или даже опасны).
4. Использование небольших выборокВо многих случаях альтернативные симптомокомплексы весьма специфичны, и хороший врач может поставить диагноз без большого труда, и более того, довольно быстро. В этих случаях такие сложные средства, как вычислительные машины и вероятностные модели диагностического процесса, практически не нужны, разве что для выполнения научных исследований и обучения. Другими словами, мозг врача, на основе интуиции производящий с достаточной точностью (и не требуя больших затрат) необходимые вычисления, оказывается здесь самой лучшей машиной. Однако существуют и более трудные ситуации. В предыдущем разделе мы уже указывали на сложности, связанные с непрерывным увеличением числа наблюдаемых симптомов и с появлением все более разнообразных методов медицинского обследования. В конце концов, само обилие данных вынудит врачей обратиться к автоматическим методам их обработки и интерпретации. Другая трудность заключается в том, что некоторые заболевания встречались или описывались в прошлом не очень часто, и при появлении нового случая диагноз приходится ставить, исходя из чисто субъективных соображений, поскольку имеющиеся данные крайне недостоверны. Так, изучая материалы по мегалобластической анемии (любезно предоставленные проф. Лесли Уиттсом из Радклиффской больницы в Оксфорде), автор и его коллега Дж. Андерсон обнаружил 92 документально описанных случая, на которых можно основываться при постановке диагноза у новых больных. Всего существует 12 основных форм этого заболевания, однако две из них не были представлены вообще, а четыре другие - всего одним случаем каждая. И только данные по остальным шести формам можно было считать пригодным для постановки диагноза математическими методами. Самая малочисленная из групп, соответствующих этим формам, содержала всего два случая, а самая многочисленная насчитывала пять случаев. Конечно, на практике врач при постановке диагноза новому больному черпает данные о других случаях из журналов и книг. Но если он самостоятельно разрабатывает новые тесты или имеет основания выбрать несколько другую систему классификации, то ему приходится полагаться только на собственный опыт, который неизбежно будет ограниченным. Поэтому крайне важно научиться извлекать максимальное количество информации из малочисленных данных, тем более что они могут иметь очень большое значение с научной точки зрения. Но если имеющиеся выборки данных малы, а статистическая изменчивость значительна, то обычно получение правильных выводов сопряжено с известными трудностями. Именно здесь вероятностный метод может оказаться крайне полезным (см. [1]). В предыдущем разделе мы предполагали, что данные за прошлое время весьма обширны, и поэтому вполне можно допустить, что вероятности P(Dj) и P (S | Dj) известны с высокой точностью. В этом случае можно использовать формулу (1). Но если имеющийся материал не очень велик, а возможно, совсем скуден, то необходимо действовать более осторожно. Прежде всего, обозначим его символом R. Теперь P(Dj) есть априорная вероятность того, что случайно выбранный больной страдает заболеванием Dj, определенная до того, как будет принята во внимание какая-либо конкретная информация, содержащаяся в исходном материале. Нужно найти вероятность P (Dj | R ) того, что некоторый случайным образом выбранный больной страдает заболеванием Dj, при условии, что информация, содержащаяся в исходном материале, известна, но симптомокомплекс еще не определен. После этого требуется вычислить вероятность P (S | Dj, R) появления симптомокомплекса S, при условии, что имеет место данное заболевание и известна информация, содержащаяся в исходных данных. теперь для определения апостериорной вероятности P (Dj | S, R) того, что больной страдает заболеванием Dj, можно использовать формулу Байеса: P (Dj | S, R) ~ P (Dj | R) P (S | Dj, R) (4) Это выражение является обобщением соответствующей формулы (1). Более точно, мы должны получить формулу:
соответствующую выражению (2). Наконец, если, как и ранее, все s симптомов взаимно независимы, формулу (3) можно заменить соотношением:
Теперь необходимо определить количество информации в материале R. Допустим, что имеется представительный набор случаев с nj примерами заболевания Dj и что nij случаев заболевания Dj изучались в отношении симптома Si. Допустим, что симптомы дискретны и поэтому Si можно подразделить на li классов. Пусть имеется aijk случаев заболевания Dj с симптомом Si, относящимся к k-му классу (k = 1, 2, ..., li). В случае простой дихотомии li = 2. Если нам совершенно неизвестна относительная частота различных заболеваний в той конкретной ситуации, с которой мы встречаемся (например, в определенной больнице или клинике), то естественно принять, что все априорные вероятности P (Dj) равны друг другу, т.е.:
Разумеется, при выборе различных значений P (Dj) могла бы учитываться и любая дополнительная информация (помимо материала R). Теперь, используя обобщение правила Лапласа на случай мультиноминальной классификации, находим выражение для вероятности P (Dj | R):
Если окажется, что исходный материал не содержит надежной информации о частоте заболеваний, то необходимо допустить, что все nj = 0. В этом случае выражение (8) переходит в (7). Применяя далее это правило, можно получить выражение для вероятности P (Si | Dj, R). Вероятность того, что симптом Si у больного с заболеванием Dj относится к k-му классу, равна:
Используя формулу (6), находим функцию
правдоподобия для всего симптомокомплекса, где
каждое
Теперь, подставляя выражения (8) и (9) в формулу (5), получаем искомое апостериорное распределение различных заболеваний. В принципе эти вычисления довольно просты, хотя они могут быть весьма громоздкими при рассмотрении большого числа симптомов, особенно если перейти от дискретных симптомов к непрерывным. Можно пользоваться теми же приемами, что и для
непрерывных случайных величин в том простом
случае, когда исходных данных много. Вначале
необходимо определить количество информации в
материале R, касающейся какой-либо
непрерывной случайной величины. Допустим, что i-ая
случайная величина непрерывна и распределена по
нормальному закону (возможно, после
соответствующего преобразования) с
математическим ожиданием
Вывод этой формулы на основании строгих
вероятностных рассуждений можно найти в
литературе [7, 10]. Однако форму выражения (10) можно
было бы легко предсказать, исходя из следующих
общих рассуждений. Случайная величина
имеет t-распределение Стьюдента с nij - 1 степенями свободы и, следовательно, ее плотность распределения описывается формулой (10). Однако этот вывод необходимо строго проверить, учитывая все входящие в формулу различные условные вероятности. Если наблюдается какая-то непрерывно
распределенная случайная величина, например для k-го
симптома, то вероятность того, что наблюдаемое
измерение будет лежать в интервале (x, x + dx),
можно записать в виде fkj(x)dx, где Запрограммировать этот математический метод для расчетов на электронной вычислительной машине нетрудно, но, чтобы его можно было с успехом применять в реальных условиях, необходимо обратить особое внимание на ряд моментов. Бейли и Андерсон (неопубликованные данные) проверили этот метод на упоминавшихся ранее данных о мегалобластической анемии, и для очень небольшой группы из девяти больных в семи случаях он себя полностью оправдал. полученные результаты можно считать обнадеживающими, хотя, разумеется, для того, чтобы сделать окончательный вывод, необходимо провести проверку на значительно большей выборке. Основные трудности вызываются тем, что, когда исходных данных не очень много или даже совсем мало, нередко их можно вообще упустить из виду. Если отсутствует зарегистрированная информация о каком-либо определенном симптоме, связанном со всеми заболеваниями рассматриваемой группы, то никаких проблем не возникает, поскольку в таком случае этот симптом можно просто игнорировать. Но если для одних заболеваний данные о симптоме имеются, а для других таких данных нет, то в этом случае, естественно, необходимо использовать любые возможности дифференциальной диагностики, а не игнорировать данный симптом полностью. Если рассматриваются дискретные случайные величины, то с этой трудностью справиться легко. Так, допустим, что в исходных данных отсутствует информация об i-м симптоме в связи с j-м заболеванием. Это означает, что aijk и nij в соответствующем сомножителе правой части формулы (9) равны нулю и остается априорная вероятность, равная 1/li. Случай непрерывных вероятностей более сложен, так как при отсутствии информации трудно сформулировать априорные утверждения о случайных величинах с бесконечным диапазоном изменений, и неясно, каким образом можно выполнить соответствующие подстановки в формуле (5). Эта задача еще не исследована полностью. Один из практических методов состоит в превращении непрерывного симптома, о котором имеется лишь частичная информация, в дискретную форму, что приводит к случаю, рассмотренному в предыдущем абзаце. На самом деле при nij<2 формулу (10) все равно применять нельзя. Вместо этого можно воспользоваться излагаемой в конце следующего раздела идеей об объединении имеющейся информации по всем симптомам в одну переменную [Tj в формуле (16)]. Это позволяет избежать трудностей, о которых говорилось при выводе формулы (5), хотя справедливость данного метода вызывает некоторые сомнения. При рассмотрении непрерывных случайных
величин возникает еще одно затруднение,
состоящее в том, что формулу (10) нельзя
использовать даже при До сих пор в большинстве случаев мы предполагали, что при любом заболевании отдельные симптомы статистически независимы. Как указывалось в разделе 3, иногда такое упрощающее допущение приближенно выполняется, однако принимать независимость симптомов за общее правило, конечно, нельзя. В принципе необходимо выяснить, к каким последствиям приводит наличие корреляции между различными симптомами. Однако на практике возникают две серьезные трудности. первая из них состоит в том, что, хотя в упоминавшейся ранее статье Гейссера [7] приводятся результаты, полезные для выполнения соответствующего анализа непрерывных случайных величин, имеющих многомерное нормальное распределение, анализ дискретных случайных величин более сложен. Возможно, здесь подойдет недавно разработанная теория взаимодействий в таблицах сопряженности (см., например, [3, 8]), однако пригодность ее для медицинской диагностики еще не ясна. Вторая трудность более существенна. Она состоит в том, что если имеющиеся материалы недостаточно полны, то они дают очень мало информации о распределениях отдельных компонент многомерной случайной величины, не говоря уже о характере корреляции между ними. В настоящее время мы не располагаем никакими количественными данными о характере или степени ожидаемых ассоциаций между различными симптомами. Детальное исследование этого вопроса имело бы очень большое значение, так как это позволило бы определить, в каких случаях можно с уверенностью принять допущение о независимости симптомов и какие дополнительные минимальные допущения можно принять, когда есть основания предполагать наличие некоторой корреляции. При этом, конечно, нужно было бы стремиться к тому, чтобы число параметров, подлежащих оценке, было сведено к минимуму. Некоторые дальнейшие замечания по этому вопросу приводятся в разделе 6.
5. Критерии значимостиКак при рассмотрении в разделе 2 методики распознавания заболевания, так и в случае байесовского подхода, описанного в разделах 3 и 4, мы предполагали, что каждый больной страдает только одним из нескольких взаимно исключающих заболеваний. Однако нередко у больного бывает не одно, а несколько заболеваний, и это обстоятельство должно быть учтено в любом математическом методе медицинской диагностики. Кроме того, возможно, что у данного больного вообще нет ни одного заболевания из числа рассматриваемых. Но если уж байесовский аппарат пущен в ход, то больного неизбежно отнесут к той группе, вероятность которой является относительно наибольшей, даже если в абсолютном выражении она совсем невелика. В определенной степени эту трудность можно преодолеть, сделав одну из категорий достаточно расплывчатой, например обозначив ее как "прочие". Однако вполне возможен случай, когда заболевание ряда больных просто не попадает в ту ограниченную группу, на которой мы остановили свое внимание. Иногда больной с неопределенным симптомокомплексом первоначально будет совершенно неправильно отнесен к какой-то категории. В этом случае строгий байесовский метод все же припишет ему одно из заболеваний, относящихся к этой категории. Другой подход состоит в том, чтобы проверить, сходен ли симптомокомплекс, обнаруживаемый у данного больного, с симптомокомплексами, характерными для определенного заболевания. Если сходство отсутствует, а говоря точнее, если различие оказывается статистически значимым, то можно допустить, что у больного этого конкретного заболевания практически нет. Если же окажется, что симптомы, обнаруживаемые у больного, значимо отличаются от симптомов, характерных для всех заболеваний группы, то можно предположить, что у него имеется какое-то совсем иное заболевание, которого раньше не предполагали. Если данные ограниченны, то вполне возможно, что установить статистическую Значимость различий не удастся. В этом случае поставить правильный диагноз без дополнительных данных невозможно. Рассмотрим вначале случай, когда имеются
обширные данные за прошлое время и все симптомы
независимы и распределены по нормальному закону.
Допустим, что, как и ранее, случайная величина xi,
характеризующая i-й симптом, имеет
математическое ожидание
Малые значения Допустим далее, что рассматриваются дискретные
случайные величины, обнаруживающие простую
дихотомию, например "наличие" или
"отсутствие" признака. Обозначим
вероятность наличия i-го симптома при j-м
заболевании через pij, а его отсутствие -
через qij = 1 - pij. Введем
случайную величину Xij, принимающую
значение 1 при наличии симптома и значение 0 в его
отсутствие. Таким образом, Xij -
биномиально распределенная случайная величина,
основанная на единичной выборке. Если бы
величина xi была получена на основе
довольно большой выборки объемом n, то для
измерения отклонений от математического
ожидания можно было бы построить приближенный
критерий
При n = 1 маловероятно, что эта аппроксимация окажется удовлетворительной. Однако рассмотрим статистику:
во всяком случае, измеряющую отклонение xi
от математического ожидания. Математическое
ожидание случайной величины
Сумма s таких статистик по всем симптомам, т. е.:
согласно центральной предельной теореме, имеет приближенно нормальное распределение с нулевым математическим ожиданием и дисперсией s. при этом необходимо построить односторонний критерий значимости для положительных отклонений Tj от нуля. Полученный критерий можно использовать и для
непрерывных случайных величин, если заменить
выражение (12) соответствующим аналогом для
непрерывного случая. Каждый член правой части
выражения (12) распределен как
Таким образом, в общем случае можно использовать для проверки статистику Tj, заданную формулой (16), где члены zij будут вычисляться по формуле (15) для дискретных случайных величин и по формуле (17) для непрерывных случайных величин. На практике должны быть учтены и некоторые дальнейшие усложнения. Прежде всего необходимо рассмотреть дискретные случайные величины, распадающиеся более чем на два класса. Основная проблема здесь состоит по существу в том, чтобы измерить возможную значимость одного наблюдения, полученного из совокупности, имеющей мультиноминальное распределение. Для этого можно приписать случайным величинам Xij значения, определяемые вероятностями самого мультиноминального распределения. Другими словами, если вероятность того, что i-й симптом при j-м заболевании относится к k-му классу, равна pijk, то случайная величина Xij принимает значение pijk с вероятностью pijk. В случае дихотомии этот способ не отличается от предыдущего, так как мы лишь производим линейное преобразование случайной величины и, как и ранее, завершаем выкладки выводом выражения (15). При наличии более чем двух классов нормированная случайная величина zij, соответствующая формуле (15), вычисляется просто, хотя и оказывается несколько громоздкой. По существу, нам необходим показатель:
где Еще одно важное затруднение, как указывалось в
разделе 4, возникает вследствие относительной
неполноты исходных данных. Если рассматриваемые
случайные величины непрерывны, то необходимо
заменить в формуле (11) случайную величину,
имеющую t-распределение Стьюдента,
соответствующей нормированной случайной
величиной. Для дискретных случайных величин при
дихотомии необходимо рассмотреть статистику Кроме того, возникает проблема взаимосвязанных симптомов, и при установлении значимости также необходимо преодолевать затруднения, аналогичные тем, о которых шла речь в разделе 4. Существую также затруднения, вызываемые отсутствием некоторых данных, о чем уже говорилось в предыдущем разделе. Очевидно, что сумма Tj в некотором смысле объединяет всю имеющуюся информацию относительно s рассматриваемых симптомов. Если s велико, то случайная величина Uj = Tjs-1/2 имеет приближенно нормальное распределение с нулевым математическим ожиданием и единичным средним квадратическим отклонением, не зависящими от s. Таким образом, мы можем сравнивать, скажем, Uj и Uk, даже если дифференциальные диагнозы j-го и k-го заболеваний должны быть основаны на различных совокупностях симптомов, т. е. на различных значениях s (например, вследствие того, что некоторые вероятности pij или их оценки отсутствуют). Далее, можно рассматривать функцию правдоподобия каждого наблюденного значения Uj как замену функции правдоподобия P (S | Dj) или P (S | Dj, R). Поэтому мы имеем возможность использовать в формулах (2) или (5) правило Байеса даже в тех случаях, когда данные по некоторым симптомам отсутствуют или недостаточно полны (при условии, конечно, что байесовский подход удовлетворителен в остальных отношениях). Логическая обоснованность этого предложения не вполне безупречна, однако оно заслуживает дальнейшего рассмотрения. Рассмотренные в данном разделе методы проверки значимости позволяют подойти к исследованию проблемы постановки множественного диагноза. Что станет с предложенными критериями, если у больного два или больше заболеваний? На первый взгляд этот вопрос кажется в значительной степени эмпирическим. Если, например, у больного имеется j-е заболевание, то вероятность появления i-го (дискретного) симптома равна pij, а если у него есть k-е заболевание, то соответствующая вероятность равна pik. Какова в этом случае вероятность появления i-го симптома, если у больного имеются оба эти заболевания? И так далее для всего симптомокомплекса. Этот вопрос очень важен, и для его решения требуется провести специальное эмпирическое исследование.
6. ЗаключениеВ этой главе мы лишь поверхностно ознакомились с возможностями математических и вычислительных методов в медицинской диагностике. Результаты применения этих методов для диагностики тиреотоксикоза (раздел 2) ясно показывают, что в определенных случаях даже самый простой математический подход, бесспорно, полезен. Более сложные методы, описанные в разд. 3 и 4, оказались весьма перспективными уже на самом начальном этапе научных исследований и разработок. Надо думать, что дальнейшая работа в этом направлении приведет к значительному расширению возможностей быстрой и точной оценки диагностического материала. Для того чтобы такими методами можно было пользоваться повседневно, необходимо найти удовлетворительное решение ряда проблем, которых мы уже касались. Это проблемы, возникающие из-за относительной неполноты и малочисленности исходных данных, возможной взаимосвязи различных симптомов, наличия нескольких заболеваний у одного лица и необходимости во многих случаях начинать лечение до постановки окончательного диагноза. Возьмем, к примеру, проблему взаимосвязанных симптомов. Удовлетворительной модели, которая учитывала бы корреляцию, или взаимосвязь дискретных и непрерывных переменных, у нас еще нет. И даже если бы такая модель была разработана, то неясно, как можно было бы оценить все ее параметры при наличии лишь ограниченных исходных данных. Может показаться, что вообще невозможно располагать таким объемом статистической информации, который был бы достаточен для принятия практических решений. Однако, как известно, существует множество прекрасных врачей-диагностов, и это показывает, что количество "внутренней" информации у врача несколько больше, чем можно было бы ожидать. Ответ, по-видимому, состоит в следующем. Ставя диагноз, врач на основании своих знаний и опыта всегда подсознательно принимает ряд допущений, которые на математическом языке равносильны допущениям о наличии определенной скрытой структуры взаимосвязи симптомов. Таким образом, необходимы специальные исследования, направленные на изучение этой структуры в явном виде. Предположим, окажется, что определенные симптомы обнаруживают довольно постоянную взаимосвязь (возможно, обусловленную какими-то физиологическими причинами) независимо от характера заболевания. Тогда соответствующие параметры можно было бы оценить на основе обширных исходных данных, а затем использовать их, когда имеющиеся данные скудны. Разумеется, важно исследовать реальные проблемы, а не чисто математические абстракции. В связи с этим встает общий вопрос о том, какие математические модели процесса постановки диагноза можно считать действительно приемлемыми. В этой главе мы рассмотрели ряд точных, хотя и чрезмерно упрощенных математических моделей того, что делают (или пытаются делать) врачи при постановке диагноза. Для построения более реалистичных моделей необходимо гораздо глубже изучить процессы постановки диагноза в клинической практике. Как мы видели, вычисления, основанные на самых простых идеях, нередко позволяют получить такие же (если не лучшие) результаты, как и те, которых достигает хороший врач на основании того же перечня симптомов. Но если врач непосредственно общается с больным, то он может поставить диагноз значительно точнее, так как в этом случае он получает дополнительную информацию, которой не имеет вычислительная машина. Однако применение современных методов автоматической записи и анализа клинических данных (например, физиологических параметров) или разрабатываемых сейчас машин, способных к распознаванию образов (применяемых, например, при подсчете и классификации хромосом), позволит, вероятно, быстрее и полнее обрабатывать большой объем информации, чем это может сделать врач. Если это осуществится, то обработку диагностического материала можно будет производить на машине с такой скоростью и эффективностью, которые сейчас даже невозможно себе представить. Самая насущная задача заключается сейчас в проведении комплексных исследований всех аспектов процесса постановки диагноза в целом, с тем чтобы математические методы и методы составления программ для ЭВМ были тесно увязаны с конкретными клиническими задачами. только в том случае, если результаты этих научных исследований смогут выдержать длительную проверку практикой, можно надеяться, что задачи, описанные в данной главе, будут выполнены.
Литература
|
||||||||||||||||||||||