Во время изучения аэродинамики я выяснила, что для того, чтобы обеспечить безопасность полетов, необходимо предсказать самые невероятные поломки оборудования. И сегодня мы делаем это, используя различные наборы данных и такую жизненную информацию, как законы физики.
Автоматическая интеграция этих двух комплектов информации – данных и человеческих знаний – это относительно новая практическая идея. Это включает в себя сочетание накопленных знаний с огромным количеством различных баз данных при помощи аналитиков и искусственного интеллекта, что позволит дать ответы на самые актуальные вопросы (например, найти лекарство от рака). Такая интеграция может не только коренным образом изменить многие индустрии, но и произвести революцию в мире.
Возьмем, к примеру, медицину. Невероятное количество данных пациентов, медицинских исследований, медицинской литературы и знаний ключевых функций, таких как метаболизм и законы генетики, могут дать нам потрясающую информационную базу, которую можно собрать воедино и проанализировать. Если у нас получится наложить все эти данные и знания на возможности аналитиков и ИИ, то мы сможем решить проблемы, которые сегодня кажутся нам за гранью понимания.
Я исследовала эту грань уже несколько лет – как лично, так и профессионально. За годы обучения и начала моей карьеры, моему отцу диагностировали последовательно несколько хронических заболеваний, начиная с опухоли головного мозга, когда ему было всего 40 лет. Позже небольшая, но неудачная автомобильная авария повредила ту же область кожи головы, которая была ослаблена радио- и химиотерапией. Затем были выявлены сердечно-сосудистые проблемы из-за многократного применения анестезии и, наконец, ему был поставлен диагноз хронический лимфолейкоз. Это уникальное сочетание условий (сопутствующих заболеваний) означало, что было чрезвычайно трудно получить реальное представление о его здоровье. Моя семья и я отчаянно хотели узнать больше о его медицинских проблемах и понять, как другие справлялись с подобными диагнозами; мы хотели полностью понять последние лекарства и методы лечения, узнать возможные неблагоприятные и побочные эффекты лекарств, понять взаимодействие между сопутствующими заболеваниями и лекарственными препаратами, а также понять, как новые медицинские открытия могут помочь ему.
Но информацию, которую мы искали, было трудно найти в оригинале и в форме, которая может быть легко проанализирована.
Каждое из заболеваний моего отца обрабатывалось изолировано, без понимания лекарственных взаимодействий. Взаимодействие фенитоина и варфарина было лишь одним из многих потенциальных опасностей такого недостатка понимания. И врачи не были уверены в том, как регулировать дозы каждого из препаратов, которые принимал мой отц, чтобы свести к минимуму их отрицательные и побочные эффекты, которые оказались большой проблемой.
Мы также не могли понять, чего ждать в дальнейшем.
Ситуация моего отца встречается у других людей пугающе часто. Сопутствующие заболевания – случаи, в которых пациенты имеют два или более хронических заболеваний – была названа проблемой 21-го века для здорового старения на Конференции Белого дома по проблемам старения» в 2014 году. В развитых странах примерно один из четырех взрослых имеет, по крайней мере, два хронических заболеваний, а также более половины пожилых людей имеют три или более хронических заболеваний. В США отрасль здравоохранения размером в $ 2 трлн. тратит 71 цент каждого доллара на лечение людей с сопутствующими заболеваниями. В системе страховой медицины сумма возрастает до 93 центов с доллара.
И сопутствующие заболевания создают большие проблемы для врачей, которые должны быть осведомлены о многих вариациях ухода и сложностях, связанных с лечении таких пациентов. Эти толпы пациентов исключены из большинства клинических испытаний. В частности, достаточно сложно разработать тесты гипотез из-за гетерогенности и разнообразности набора возможностей, и запустить такие испытания дорого. Так что даже медицинское сообщество должно в значительной степени полагаться на данные наблюдений и аналитические инструменты на основе алгоритмов интеллектуального анализа данных и машинного обучения.
Но что, если бы мы были в состоянии сформировать тесную связь между медициной и научными данными с тем, чтобы свести воедино обширный набор медицинских знаний, данные о пациентах и аналитику? Я хотела это выяснить.
Поскольку моя семья старалась изо всех сил, чтобы узнать больше о заболеваниях моего отца и отслеживать варианты лечения, я могла заполучить некоторые государственные медицинские данных. Используя свои научные навыки, я начала добывать эти данные в нерабочее время и в выходные дни с использованием методов анализа данных. И прежде, чем я заметила, это стало моей основной профессией в PARC. Моя работа над сопутствующими заболеваниями дает представление о том, как работает это новое поле анализа данных, о партнерствах, которые могут возникнуть, и разрушительных изменениях, которые это все принесет.
ИИ может объединить медицинские знания с анализом данных
С помощью новых правил и программ стимулирования, а также новых технологических достижений, мы имеем доступ к большему количеству оцифрованных медицинских записей, чем в любое время в прошлом. Наборы данных здравоохранения включают в себя как структурированную, так и неструктурированную информацию. Существуют наборы данных Rich Electronic Medical Record (EMR), которые включают в себя личную и семейную медицинскую историю, обследования, процедуры, лабораторные исследования, большие коллекции комплексной физиологической информации, данные медицинской визуализации, геномика и социально-экономические и поведенческие данные. Данные охватывают различные слои – от молекулярной информации и геномики до патофизиологических реакций на диагностику и процедуры, или данных личных устройств пациентов.
Недавно мне посчастливилось получить доступ к богатому набору стационарных данных EMR, взятому у более чем девяти миллионов уникальных пациентов. Я начала с поиска соседних кластеров сопутствующих заболеваний, почему и как эти кластеры различаются в зависимости от различных групп пациентов и других переменных, таких как возраст, пол, этническая принадлежность, окружающая среда и социально-экономические факторы. Я применила передовые статистические методы, чтобы создать карту причинно-следственных связей между различными заболеваниями. Изучение временных данных привело к разработке математических моделей прогрессирования заболевания. Но что-то было не совсем верно.
Во-первых, независимо от того, насколько хороши данные EMR, в большинстве случаев медицинские данные не являются кричащими и предвзятыми. Сложный характер факторов, участвующих в преобразовании словесного обмена информацией между пациентами и врачами в письменную информацию в медицинских картах, а оттуда – в коды Международной классификации болезней (МКБ), используемые в данных EMR, приводит к огромным ошибкам кодирования. Кроме того, различные больницы имеют различные стандарты качества кодирования. Медицинские требования являются основой данных EMR, но они собираются для выставления счетов, которая приносит еще один источник смещения и ошибки в данных. Программисты, администраторы больниц, медики, плательщики и пациенты имеют различные точки зрения и ожидания, когда речь идет о медицинских данных. Этот многогранный характер медицинских данных оказывает большое влияние на пути их сбора и способы получения и обработки. Изобретение алгоритмов, которые измеряют количественную оценку качества данных из различных ресурсов, а также фильтруют шум и ошибки данных, станет неизбежной частью работы с медицинскими данными.
Кроме качества данных, было что-то фундаментально неправильное в использовании только EMR данных. Например, мои причинные алгоритмы вывода привели к ошибочным и часто недействительным соотношениям между сопутствующими заболеваниями. Я пыталась проверить и объяснить результаты, разговаривая с врачами и исследователями, а также поглощал обширные медицинские знания из литературы и других баз данных.
Весь этот процесс привел меня к гениальной мысли: «Если мы сможем автоматически интегрировать накопленный опыт по всему земному шару вместе с долгой историей медицины, мы могли бы:
- Определить интересные, но еще не понятые данные, которые помогут медицинским работникам эффективно выбирать соответствующие планы лечения
- Сформировать гипотезы для медицинских исследователей, которые позволят ускорить развитие знаний
- Разработать полезную информацию для пациентов и членов семьи, чтобы эффективнее справляться с сопутствующими заболеваниями.
Медицина имеет, пожалуй, одну из самых длинных историй среди различных отраслей науки. Сегодня накоплены огромные знания в области медицинских и фармацевтических исследований. И они продолжат расширяться. Большие данные в медицине могут дать нам интересную информацию, но только если она будет идти рука об руку с медицинскими знаниями. Оценка причинно-следственных связей между различными заболеваниями в EMR данных приведет к надежным результатам только тогда, когда необходимые медицинские знания, например, причинно-следственные связи между диабетом и заболеваниями почек, будут введены в наши алгоритмы машинного обучения. Это все фантастика, но проблема состоит в том, что медицинские знания фиксируются в различных онтологиях и презентациях (текст, звуковые дорожки, изображения и т.д.). Кроме того, объединение медицинских знаний осложняется тем, что каждый источник описывает различный уровень человеческой системы. Некоторые из них могут описать функции высшего уровня, другие могут описать функции на уровне органов, а третьи – сосредоточиться на уровне подъячейки, описывая ДНК, РНК и белки. Поэтому важной частью этого процесса является изобретение машины, которая может ассимилировать всю эту разрозненную информацию.
Рассмотрим типы проблем, которые мы могли бы решать, одновременно с точки зрения пациента и ученого:
Со стороны пациента: Огромное количество данных из историй пациентов в сочетании с медицинскими знаниями могут быть использованы для идентификации кластеров сопутствующих заболеваний, их прошлых и будущих траекторий прогрессии. Затем пациенты могут быть классифицирована на основе сопутствующих заболеваний и траекторий, которым они следуют. Такой подход поможет как пациентам, так и врачам обобщить опыт и выяснить, чего ждать дальше, и какой лечебный план является наиболее эффективным.
Со стороны ученого: Мы можем применить общения на траектории, чтобы предоставить доказательства взаимодействия между сопутствующими заболеваниями и создать научные гипотезы. Цель состоит в том, чтобы добиться значимых и действенные идей через успешное взаимодействие искусственного интеллекта / машинного обучения и медицины. Для проведения анализа на основе поступающих данных нам необходимо решать такие проблемы, как интеграция различных типов данных, недостающие данные, и обработка нерегулярных, выборочных и предвзятых данных. Автоматическая интеграция данных и медицинских знаний является сложным и тем не менее перспективным научным вопросом. Хотя эти проблемы должны быть приняты во внимание учеными, работающими с данными здравоохранения, большая проблема связана с тем, как наилучшим образом доказать, что поставленные гипотезы и открытия имеют отношение к медицинской общественности.
С учетом расширения охвата медицинских данных, мы входим в новую эру интеллектуальной медицины. Основной такого развития станет машинное обучение, и это будет иметь решающее значение для специалистов, которые смогут лучше понять и доверять результатам таких алгоритмов. Современные методы машинного обучения создают модели, которые являются непрозрачными, непонятными интуитивно, и экспертам трудно опираться на них в процессах принятия решений. Но если мы можем объединить медицинские данные и человеческие знания, мы можем создать объяснимые/ интерпретируемые данные для медицинских работников и исследователей.
Я надеюсь, что мы можем начать использовать глубину опыта всех пациентов в сочетании с длительной историей медицинских исследований для улучшения качества медицинского обслуживания для отдельно взятых пациентов. Процесс должен начаться с нового поколения партнерских отношений между научными данными и хранителями знаний.
Как я уже говорила выше, этот подход актуален не только относительно медицины. Он может быть использован для решения сложных задач в различных областях. Когда это произойдет, произойдет новая революция, создав прочный союз между анализом данных и человеческими знаниями.
Об авторе:
Марци Наби (Marzieh Nabi) – научный и технический руководитель в PARC, компании Xerox, с опытом в управлении, оптимизации сетевых динамических систем, робототехнике и динамике полета. Она увлекается применения этих инструментов в области энергетики, транспорта, аэрокосмической, много-агентной и автономных системах, а также в здравоохранении.