Когда вы чувствуете себя плохо и посещаете терапевта, или когда вы чувствуете себя очень плохо и оказываетесь на больничной койке, вы можете обнаружить, что медицинский персонал собирает жидкости вашего тела и отправляет их в какое-то мистическое место для анализа. Легион техников, ученых и клинического персонала занимает место назначения образцов. Используя новые и старые технологии, ученые-биомедики (такие как я) начинают собирать данные, которые отражают ваше состояние на момент отбора проб. Мой опыт - диагностика инфекционных заболеваний, поэтому моей задачей было бы культивировать и изучать патогенные («плохие») бактерии, содержащиеся в вашем образце. Общая цель - определить причину инфекции и проинформировать клинициста о том, какие антибиотики будут эффективны в борьбе с «насекомыми».

Что в настоящее время недооценивается (мнение, которое я разделяю со многими другими), так это астрономический объем данных, генерируемых в этом процессе. Основное использование этих данных - создание отчета для клиницистов, который может дать рекомендации по диагностике и лечению заболевания. Помимо этого, данные мало используются и вместо этого остаются простаивающими в огромных базах данных. Общественное здравоохранение Англии проводит огромную работу по обзору состояния здоровья населения, но все еще существует огромное количество данных, которые не используются сверх своей основной цели. Я считаю, что это связано с отсутствием опыта в области науки о данных на переднем крае.

О каком количестве данных мы говорим?

Королевский колледж патологов довольно хорошо резюмирует масштабы патологической службы NHS:

  • В Англии 105 больниц, предоставляющих услуги патологии.
  • Ежегодно обрабатывается более 1 миллиарда тестов на сумму 2,2 миллиарда фунтов стерлингов.
  • Крупнейшая патологическая служба Великобритании Barts NHS Trust ежегодно проводит 26 миллионов тестов.

Чтобы понять, сколько данных создается только в мире медицинской микробиологии, давайте рассмотрим одну лабораторию и один тип образца. Лаборатория микробиологии больниц Оксфордского университета обрабатывает более 600 000 уникальных образцов в год. Образец, известный как посев крови, займет небольшой процент из этих 600 тыс. Образцов.

Образец крови берется в сосуд для культивирования крови (см. Ниже), который затем инкубируется на специализированном аппарате, который ищет признаки роста бактерий. Когда в бутылке обнаруживается рост, он удаляется и анализируется (кровь наносится на различные питательные среды для идентификации и тестирования чувствительности к антибиотикам). Целью посева крови является выявление инфекции крови (бактериемии), серьезного состояния, которое показывает, что бактерии проникли в систему кровообращения и могут привести к тяжелым исходам, таким как эндокардит или сепсис. Удачливые биомедицинские ученые могут ожидать 4 или 5 положительных посевов крови в день, но на самом деле более вероятно 10-20 положительных результатов в день.

Для однократного положительного посева крови будут собраны / созданы следующие данные:

  • Демографические данные о пациенте (возраст, пол, местонахождение и т. Д.)
  • Клинические подробности, описывающие состояние пациента
  • Уникальный идентификатор, связывающий данные этого образца со всеми другими образцами, собранными у этого пациента.
  • Данные инкубации; данные временного ряда, показывающие изменение бактериального индикатора с течением времени
  • Изображения роста бактерий на различных средах для выращивания (только в лабораториях, которые применяют методы автоматического считывания, например, Kiestra / Copan WASP, это становится все более популярным)
  • Спектральные данные, полученные с помощью MALDI-TOF масс-спектрометрии; используется для идентификации бактерий
  • Биохимический профиль бактериальных изолятов (15+ химических взаимодействий); используется для первоначальной идентификации бактерий или широкого использования, когда MALDI-TOF недоступен / ненадежен
  • Данные бактериального генома; иногда необходимо будет генотипировать бактериальные изоляты (часто в целях инфекционного контроля), но ожидается, что генотипический анализ бактериальных изолятов станет нормой.
  • Данные о чувствительности к противомикробным препаратам; это данные, относящиеся к чувствительности бактериального изолята к множеству антибиотиков.

Таким образом, образец, такой как посев крови, может давать десятки или даже сотни точек данных и генерировать данные различного формата (изображения, спектры, категориальные и числовые). Теперь не забывайте, что этот тип анализа проводился десятилетиями, и в течение последних 15 лет (по крайней мере) эти данные хранились в цифровом виде. Нет сомнений в том, что лаборатории NHS генерируют невероятный объем данных.

Что наука о данных может сделать для лабораторий NHS?

Основная задача любой лаборатории NHS - предоставить рентабельный, но точный результат теста, который может дать врачам информацию о состоянии их пациента. Однако существует ряд действий, связанных с этой основной целью, каждая из которых жизненно важна для ее выполнения. Чтобы запустить современную лабораторию, необходимо учитывать ИТ-инфраструктуру, автоматизированные платформы для анализа, меры контроля качества, контроль запасов и использование расходных материалов, а также управление и обучение персонала. Методы науки о данных не только могут быть применены к основной цели, но они также могут помочь в выполнении задач, которые удерживают корабль на плаву.

Повышение качества и возврат контроля

Чтобы лаборатория пережила инспекции UKAS, она должна показать, что методы и автоматизированные платформы, используемые для получения результатов испытаний, проверены и контролируются в соответствии со стандартами ISO. При растущей рабочей нагрузке и усложнении тестов, на фоне нехватки персонала и сокращения бюджета, никогда не было труднее соответствовать этим стандартам, чем сегодня. К чести патологической службы NHS, им по-прежнему удается предоставлять услуги высокого качества.

При анализе качества теста или валидации новой процедуры используются небольшие размеры выборки и классический статистический вывод, поскольку отсутствуют знания и инструменты, необходимые для выполнения многовариантного математического моделирования. В некоторых случаях анализ тенденций автоматизирован программным обеспечением для обеспечения качества, но чаще всего это просто рассматривает вариации и информирует ученых, если значения превышают пороговое значение. Для прогнозного моделирования показателей качества мало используются доступные большие наборы данных.

В этой области наблюдается захватывающее движение: в литературе описывается использование протоколов со статистическим управлением и машинного обучения для обнаружения преаналитических ошибок. К большому разочарованию ученых-биомедиков, ошибки в анализе часто могут быть неизбежны еще до того, как образец попадет в лабораторию. В том же журнале можно найти примеры автоматизации проверки тестов с использованием искусственных нейронных сетей, что значительно снижает рабочую нагрузку без ущерба для безопасности пациентов.

Помимо всего этого, используя данные на местном уровне, располагая более технически подкованным персоналом (со знаниями программирования и создания небольших индивидуальных решений) и получая «обзор с высоты птичьего полета» на работу лабораторий, узкие места и неэффективность можно легче идентифицировать и адресованный.

Роботы умеют читать!

Почти. Обработка естественного языка (NLP) за последние годы прошла долгий путь, особенно с развитием глубокого обучения и повторяющихся нейронных сетей. НЛП показало себя многообещающим во всем медицинском мире, от повышенной чувствительности при идентификации послеоперационных осложнений до алгоритмов фенотипической классификации, использующих преимущества электронных медицинских карт.

НЛП может принести большую пользу в лаборатории. Работа с пробами и их обработка во многом зависят от письменных описаний, предоставленных клиническим персоналом. Интерпретация этих данных все еще зависит от биомедицинского ученого, и много с проигрышных звонков.

Что, если бы НЛП можно было применить для оценки безопасности образца до того, как он поступит в лабораторию, или использовать для оценки качества отчета перед его отправкой клиницисту. Задачи, которые персонал не может выполнить вручную, но может быть автоматизирован роботами с очками для чтения.

Результаты лабораторных исследований + машинное обучение = будущее!

Машинное обучение может помочь в достижении фундаментальной цели, в первую очередь, при наличии службы патологии - предсказании причин болезни пациентов!

Будь то классификация типов клеток на злокачественные или незлокачественные, использование многомерных данных для привязки биохимического описания состояния пациента к известному заболеванию или прогнозирование того, будет ли изолированный патоген восприимчив к выбранному препарату, машинное обучение идеальный инструмент для работы.

Исследовательский мир и частная промышленность показали некоторые надежды:

Как наука о данных может объединиться с текущей практикой?

Как видите, существует множество примеров того, как наука о данных и предсказательная сила машинного обучения могут быть использованы для революционного изменения служб патологии NHS. Казалось бы, вполне разумно утверждать, что частный сектор будет играть решающую роль в этом начинании, но я хотел бы привести аргумент, что лаборатории NHS должны сосредоточиться на создании собственных групп по анализу данных.

В настоящее время в лабораториях Национальной службы здравоохранения не существует роли «специалиста по данным». На самом деле редко можно найти преданных своему делу ИТ-специалистов, не говоря уже об аналитиках / данных. Карьерная структура лабораторий NHS очень жесткая. Мне это кажется нелепым; вот сервис, производящий массу ценных данных, но без навыков извлечения прибыли из этого ресурса. Национальная служба здравоохранения (NHS) отчаянно пытается сэкономить за счет повышения эффективности, и использование ее данных может просто помочь этой цели стать реальностью.

Мир меняется, и мы вступаем в эпоху возрождения прикладного машинного обучения и автоматизации. Потребность в биомедицинских ученых, выполняющих ручной анализ клинических образцов, будет ухудшаться по мере развития молекулярных методов и совершенствования автоматизации. Кажется естественным, что биомедицинские ученые переходят к более аналитической роли, манипулируя данными, создаваемыми в лаборатории, и внося свой вклад в исследования.

Тем не менее, подготовка ученых-биомедицинских специалистов почти не идет на должном уровне. Быстрый обзор британских университетов с помощью whatuni.com, ранжированный по уровню занятости, показал, что только 2 из 9 лучших университетов, предоставляющих степени бакалавра биомедицинских наук, предлагают обучение, выходящее за рамки базового статистического анализа, то есть программирования R / Python и передовых биоинформатических методов. В обоих этих университетах обучение составляет часть факультативного модуля последнего года обучения.

Что расстраивает, так это то, что в этих лабораториях NHS работают умные и увлеченные ученые, которые при правильном руководстве могли бы применить методы, необходимые для использования имеющихся ресурсов данных. Большинство ученых-биомедицинцев сначала получают степень магистра, а затем занимают руководящую должность, однако степень магистра в области науки о данных рассматривается редко. Я бы сказал, что в нынешних условиях для изучения науки о данных и программирования степень магистра может не понадобиться, чтобы сдвинуть дело с мертвой точки. С такими платформами, как DataCamp, DataQuest и Udacity (и это лишь некоторые из них), ученые-биомедики могут учиться в своем собственном темпе, и им просто потребуется время и доступ в Интернет.

Как только эти навыки будут получены, их можно будет применять на местном уровне, чтобы помочь улучшить качество обслуживания и повысить эффективность. Я также вижу возможность увеличить участие лабораторий патологии в текущих исследованиях. Ученые-биомедики знают данные, которые генерируют лаборатории NHS, лучше, чем кто-либо другой, и они идеально подходят для обработки данных с целью подготовки больших наборов данных о патологии для исследования. Хотя доступ к данным с годами улучшился, благодаря практикам стандартизации и улучшенной инфраструктуре (примеры - SNOMED, ​​HL7, NLMC и NHS), местные нюансы почти неизбежны, особенно при проведении ретроспективного анализа исторических данных.

Итак, двигаясь вперед, я считаю, что сейчас нам нужно сосредоточиться на создании культуры, которая побуждает наших ученых-биомедиков заниматься наукой о данных. Необходима поддержка и большая гибкость в создании аналитических позиций в лабораториях NHS, с возможностью использования преимуществ онлайн-услуг по обучению науке о данных и дистанционного обучения. Но больше всего существует потребность в упреждающем управлении, которое сосредоточено на развитии инфраструктуры и правовых рамок, необходимых для смены парадигмы, в которой мы находимся. В долгосрочной перспективе применение машинного обучения в патологии, вероятно, потребует специализированных инженеров по данным и больших проекты по созданию хранилищ данных, но рентабельной отправной точкой будет подготовка имеющегося у нас персонала; у них уже есть специфические знания предметной области, необходимые для понимания данных, которые мы хотим использовать.

Что касается юридических и этических последствий того, что я здесь обсуждал, я намеренно не упомянул об этом. Я хочу остановиться на этом в отдельной статье. Многие в правительстве уже рассматривают данные NHS как золотую жилу, но с учетом того, что Cambridge Analytica и такие бедствия, как скандал со скринингом груди все еще свежи в памяти, мы должны сделать все возможное, чтобы обеспечить безопасность пациентов и конфиденциальность, является безусловным приоритетом.