Почему большим данным необходима единая «теория всего»

Почему большим данным необходима единая «теория всего»

Эксперт в области анализа больших данных Марци Наби предсказывает революцию в сфере сбора, обработки и анализа информации во всех сферах человеческой жизни

Во время изучения аэродинамики я выяснила, что для того, чтобы обеспечить безопасность полетов, необходимо предсказать самые невероятные поломки оборудования. И сегодня мы делаем это, используя различные наборы данных и такую жизненную информацию, как законы физики.

Автоматическая интеграция этих двух комплектов информации – данных и человеческих знаний – это относительно новая практическая идея. Это включает в себя сочетание накопленных знаний с огромным количеством различных баз данных при помощи аналитиков и искусственного интеллекта, что позволит дать ответы на самые актуальные вопросы (например, найти лекарство от рака). Такая интеграция может не только коренным образом изменить многие индустрии, но и произвести революцию в мире.

Возьмем, к примеру, медицину. Невероятное количество данных пациентов, медицинских исследований, медицинской литературы и знаний ключевых функций, таких как метаболизм и законы генетики, могут дать нам потрясающую информационную базу, которую можно собрать воедино и проанализировать. Если у нас получится наложить все эти данные и знания на возможности аналитиков и ИИ, то мы сможем решить проблемы, которые сегодня кажутся нам за гранью понимания.

Я исследовала эту грань уже несколько лет – как лично, так и профессионально. За годы обучения и начала моей карьеры, моему отцу диагностировали последовательно несколько хронических заболеваний, начиная с опухоли головного мозга, когда ему было всего 40 лет. Позже небольшая, но неудачная автомобильная авария повредила ту же область кожи головы, которая была ослаблена радио- и химиотерапией. Затем были выявлены сердечно-сосудистые проблемы из-за многократного применения анестезии и, наконец, ему был поставлен диагноз хронический лимфолейкоз. Это уникальное сочетание условий (сопутствующих заболеваний) означало, что было чрезвычайно трудно получить реальное представление о его здоровье. Моя семья и я отчаянно хотели узнать больше о его медицинских проблемах и понять, как другие справлялись с подобными диагнозами; мы хотели полностью понять последние лекарства и методы лечения, узнать возможные неблагоприятные и побочные эффекты лекарств, понять взаимодействие между сопутствующими заболеваниями и лекарственными препаратами, а также понять, как новые медицинские открытия могут помочь ему.

Но информацию, которую мы искали, было трудно найти в оригинале и в форме, которая может быть легко проанализирована.

Каждое из заболеваний моего отца обрабатывалось изолировано, без понимания лекарственных взаимодействий. Взаимодействие фенитоина и варфарина было лишь одним из многих потенциальных опасностей такого недостатка понимания. И врачи не были уверены в том, как регулировать дозы каждого из препаратов, которые принимал мой отц, чтобы свести к минимуму их отрицательные и побочные эффекты, которые оказались большой проблемой.

Мы также не могли понять, чего ждать в дальнейшем.

Ситуация моего отца встречается у других людей пугающе часто. Сопутствующие заболевания – случаи, в которых пациенты имеют два или более хронических заболеваний – была названа проблемой 21-го века для здорового старения на Конференции Белого дома по проблемам старения» в 2014 году. В развитых странах примерно один из четырех взрослых имеет, по крайней мере, два хронических заболеваний, а также более половины пожилых людей имеют три или более хронических заболеваний. В США отрасль здравоохранения размером в $ 2 трлн. тратит 71 цент каждого доллара на лечение людей с сопутствующими заболеваниями. В системе страховой медицины сумма возрастает до 93 центов с доллара.

И сопутствующие заболевания создают большие проблемы для врачей, которые должны быть осведомлены о многих вариациях ухода и сложностях, связанных с лечении таких пациентов. Эти толпы пациентов исключены из большинства клинических испытаний. В частности, достаточно сложно разработать тесты гипотез из-за гетерогенности и разнообразности набора возможностей, и запустить такие испытания дорого. Так что даже медицинское сообщество должно в значительной степени полагаться на данные наблюдений и аналитические инструменты на основе алгоритмов интеллектуального анализа данных и машинного обучения.

Но что, если бы мы были в состоянии сформировать тесную связь между медициной и научными данными с тем, чтобы свести воедино обширный набор медицинских знаний, данные о пациентах и аналитику? Я хотела это выяснить.

Поскольку моя семья старалась изо всех сил, чтобы узнать больше о заболеваниях моего отца и отслеживать варианты лечения, я могла заполучить некоторые государственные медицинские данных. Используя свои научные навыки, я начала добывать эти данные в нерабочее время и в выходные дни с использованием методов анализа данных. И прежде, чем я заметила, это стало моей основной профессией в PARC. Моя работа над сопутствующими заболеваниями дает представление о том, как работает это новое поле анализа данных, о партнерствах, которые могут возникнуть, и разрушительных изменениях, которые это все принесет.

ИИ может объединить медицинские знания с анализом данных

С помощью новых правил и программ стимулирования, а также новых технологических достижений, мы имеем доступ к большему количеству оцифрованных медицинских записей, чем в любое время в прошлом. Наборы данных здравоохранения включают в себя как структурированную, так и неструктурированную информацию. Существуют наборы данных Rich Electronic Medical Record (EMR), которые включают в себя личную и семейную медицинскую историю, обследования, процедуры, лабораторные исследования, большие коллекции комплексной физиологической информации, данные медицинской визуализации, геномика и социально-экономические и поведенческие данные. Данные охватывают различные слои – от молекулярной информации и геномики до патофизиологических реакций на диагностику и процедуры, или данных личных устройств пациентов.

Недавно мне посчастливилось получить доступ к богатому набору стационарных данных EMR, взятому у более чем девяти миллионов уникальных пациентов. Я начала с поиска соседних кластеров сопутствующих заболеваний, почему и как эти кластеры различаются в зависимости от различных групп пациентов и других переменных, таких как возраст, пол, этническая принадлежность, окружающая среда и социально-экономические факторы. Я применила передовые статистические методы, чтобы создать карту причинно-следственных связей между различными заболеваниями. Изучение временных данных привело к разработке математических моделей прогрессирования заболевания. Но что-то было не совсем верно.

Во-первых, независимо от того, насколько хороши данные EMR, в большинстве случаев медицинские данные не являются кричащими и предвзятыми. Сложный характер факторов, участвующих в преобразовании словесного обмена информацией между пациентами и врачами в письменную информацию в медицинских картах, а оттуда – в коды Международной классификации болезней (МКБ), используемые в данных EMR, приводит к огромным ошибкам кодирования. Кроме того, различные больницы имеют различные стандарты качества кодирования. Медицинские требования являются основой данных EMR, но они собираются для выставления счетов, которая приносит еще один источник смещения и ошибки в данных. Программисты, администраторы больниц, медики, плательщики и пациенты имеют различные точки зрения и ожидания, когда речь идет о медицинских данных. Этот многогранный характер медицинских данных оказывает большое влияние на пути их сбора и способы получения и обработки. Изобретение алгоритмов, которые измеряют количественную оценку качества данных из различных ресурсов, а также фильтруют шум и ошибки данных, станет неизбежной частью работы с медицинскими данными.

Кроме качества данных, было что-то фундаментально неправильное в использовании только EMR данных. Например, мои причинные алгоритмы вывода привели к ошибочным и часто недействительным соотношениям между сопутствующими заболеваниями. Я пыталась проверить и объяснить результаты, разговаривая с врачами и исследователями, а также поглощал обширные медицинские знания из литературы и других баз данных.

Весь этот процесс привел меня к гениальной мысли: «Если мы сможем автоматически интегрировать накопленный опыт по всему земному шару вместе с долгой историей медицины, мы могли бы:

  1. Определить интересные, но еще не понятые данные, которые помогут медицинским работникам эффективно выбирать соответствующие планы лечения
  2. Сформировать гипотезы для медицинских исследователей, которые позволят ускорить развитие знаний
  3. Разработать полезную информацию для пациентов и членов семьи, чтобы эффективнее справляться с сопутствующими заболеваниями.

Медицина имеет, пожалуй, одну из самых длинных историй среди различных отраслей науки. Сегодня накоплены огромные знания в области медицинских и фармацевтических исследований. И они продолжат расширяться.  Большие данные в медицине могут дать нам интересную информацию, но только если она будет идти рука об руку с медицинскими знаниями. Оценка причинно-следственных связей между различными заболеваниями в EMR данных приведет к надежным результатам только тогда, когда необходимые медицинские знания, например, причинно-следственные связи между диабетом и заболеваниями почек, будут введены в наши алгоритмы машинного обучения. Это все фантастика, но проблема состоит в том, что медицинские знания фиксируются в различных онтологиях и презентациях (текст, звуковые дорожки, изображения и т.д.). Кроме того, объединение медицинских знаний осложняется тем, что каждый источник описывает различный уровень человеческой системы. Некоторые из них могут описать функции высшего уровня, другие могут описать функции на уровне органов, а третьи – сосредоточиться на уровне подъячейки, описывая ДНК, РНК и белки. Поэтому важной частью этого процесса является изобретение машины, которая может ассимилировать всю эту разрозненную информацию.

Рассмотрим типы проблем, которые мы могли бы решать, одновременно с точки зрения пациента и ученого:

Со стороны пациента: Огромное количество данных из историй пациентов в сочетании с медицинскими знаниями могут быть использованы для идентификации кластеров сопутствующих заболеваний, их прошлых и будущих траекторий прогрессии. Затем пациенты могут быть классифицирована на основе сопутствующих заболеваний и траекторий, которым они следуют. Такой подход поможет как пациентам, так и врачам обобщить опыт и выяснить, чего ждать дальше, и какой лечебный план является наиболее эффективным.

Со стороны ученого: Мы можем применить общения на траектории, чтобы предоставить доказательства взаимодействия между сопутствующими заболеваниями и создать научные гипотезы. Цель состоит в том, чтобы добиться значимых и действенные идей через успешное взаимодействие искусственного интеллекта / машинного обучения и медицины. Для проведения анализа на основе поступающих данных нам необходимо решать такие проблемы, как интеграция различных типов данных, недостающие данные, и обработка нерегулярных, выборочных и предвзятых данных. Автоматическая интеграция данных и медицинских знаний является сложным и тем не менее перспективным научным вопросом. Хотя эти проблемы должны быть приняты во внимание учеными, работающими с данными здравоохранения, большая проблема связана с тем, как наилучшим образом доказать, что поставленные гипотезы и открытия имеют отношение к медицинской общественности.

С учетом расширения охвата медицинских данных, мы входим в новую эру интеллектуальной медицины. Основной такого развития станет машинное обучение, и это будет иметь решающее значение для специалистов, которые смогут лучше понять и доверять результатам таких алгоритмов. Современные методы машинного обучения создают модели, которые являются непрозрачными, непонятными интуитивно, и экспертам трудно опираться на них в процессах принятия решений. Но если мы можем объединить медицинские данные и человеческие знания, мы можем создать объяснимые/ интерпретируемые данные для медицинских работников и исследователей.

Я надеюсь, что мы можем начать использовать глубину опыта всех пациентов в сочетании с длительной историей медицинских исследований для улучшения качества медицинского обслуживания для отдельно взятых пациентов. Процесс должен начаться с нового поколения партнерских отношений между научными данными и хранителями знаний.

Как я уже говорила выше, этот подход актуален не только относительно медицины. Он может быть использован для решения сложных задач в различных областях. Когда это произойдет, произойдет новая революция, создав прочный союз между анализом данных и человеческими знаниями.

 

Об авторе:

Марци Наби (Marzieh Nabi) – научный и технический руководитель в PARC, компании Xerox, с опытом в управлении, оптимизации сетевых динамических систем, робототехнике и динамике полета. Она увлекается применения этих инструментов в области энергетики, транспорта, аэрокосмической, много-агентной и автономных системах, а также в здравоохранении.

 

Читайте также