Если в последние несколько лет (!) Радиологи не отключатся в затемненной комнате, они будут слышать о надвигающемся цунами радиологических алгоритмов искусственного интеллекта, готовых сделать их работу быстрее, их отчеты - более точными, а их практика - более действенной. Мотивированные среди нас начнут искать способы участия в разработке радиологического искусственного интеллекта, а некоторые, как я, уже будут активно работать над вариантами использования, исследованиями и проверкой конкретных задач. Это здорово, но я гарантирую, что любой набор данных, над которым вы работаете, недостаточно велик, и вы жаждете большего. Может быть, у вас есть доступ к бесплатным 100 000 рентгеновских снимков грудной клетки от NIH? Или, может быть, вы убедили свою больницу позволить вам обнюхать их PACS? Или, может быть, вы работаете в IBM и имеете доступ ко всей этой милой Объедините медицинские данные?

Повезло тебе. Стремление получить доступ к медицинским данным и сделать их эксклюзивными и закрытыми напоминает мне о золотой лихорадке двух столетий назад. Прибывают в массовом порядке старатели, торгующиеся с инвесторами с целью получения капитала для начала раскопок, выпрашивающие деньги для скупки земельных участков и предлагающие инвестиции для приобретения оборудования, обещая при этом состояния золотом. Однако есть негласное и слишком часто игнорируемое препятствие, чтобы прыгнуть, прежде чем копаться в действительно сочных вещах и вытаскивать куски твердой руды ...

Проблема в том, что ... данные медицинской визуализации не готовы для ИИ.

Разработка алгоритмов машинного обучения на основе данных медицинской визуализации - это не просто возможность получить к ним доступ. Хотя доступ, конечно, сам по себе является огромной головной болью (наглядный пример посмотрите на DeepMind), это не единственное препятствие в гонке. В этой статье я объясню концепцию готовности данных и объясню, почему инвестиции в подготовку ваших данных важнее, чем разработка вашего первого алгоритма.

Этапы готовности данных

Не существует определенной и общепринятой шкалы для описания того, как подготовлены данные для использования в машинном обучении. Многие консалтинговые фирмы по управлению предложат красивые слайд-шоу о том, как вы можете собирать данные и создавать на их основе аналитические данные (и взимать плату за эту привилегию), но лежащий в основе принцип готовности данных по-прежнему остается в значительной степени не поддающимся количественной оценке процессом.

Малоизвестная, но очень важная статья о готовности данных профессора Нила Лоуренса (Шеффилд, Amazon) привлекла мое внимание, и, прочитав ее и связавшись с ним для обсуждения, я придумал свою собственную модифицированную версию его шкалы готовности данных.

Давайте начнем с самого начала, с уровня D…

Все хотят D

Представьте, что у вас есть огромное нефтяное месторождение. Довольно приятно представить. Если вы не являетесь сотрудником NHS, и в этом случае вам не нужно воображать, потому что ВЫ УЖЕ ВЛАДАЕТЕ МАССИВНОЕ НЕФТЯНОЕ МЕСТОРОЖДЕНИЕ! Проблема в том, что ваше нефтяное месторождение полностью недоступно для людей, которые хотят выкопать эту нефть и превратить ее в бензин, что принесет вам огромную прибыль. Не только это, но есть законы и этические препятствия на пути (и даже не заставляйте меня начинать с GDPR). Никто, даже вы, не уверен, что именно находится на вашем нефтяном месторождении. Ваше нефтяное месторождение - это то, что я называю данными уровня D.

Данные уровня D - это непроверенные по количеству и качеству данные, которые недоступны и имеют формат, который затрудняет или делает невозможным выполнение каких-либо действий с помощью машинного обучения. Этот уровень неанонимных данных находится в архиве PACS каждого больничного траста в огромных объемах, просто сидя там, ничего не делая, кроме как в качестве записи клинической деятельности. (И ... я содрогаюсь при мысли ... время от времени из-за проблем с хранением данных трасты NHS фактически удаляют накопившиеся в них данные. Как выбросить нефть ...)

Чтобы данные уровня D перешли на уровень C, вам необходимо построить нефтеперерабатывающий завод. Первый этап уточнения данных - получение этического разрешения на доступ к вашим данным. На практике это осуществляется посредством соглашения о совместном использовании данных либо на местном уровне с вами через комитет по этике, либо с третьей стороной (университетом, компанией или стартапом). Трасты NHS могут иметь тысячи соглашений об обмене данными одновременно. Эти соглашения также будут включать положения об анонимизации данных, поскольку очевидно, что никто не хочет, чтобы NHS разглашала конфиденциальную информацию о пациентах. Пока все хорошо ... однако данные все еще очень неструктурированы и не будут репрезентативными для полного набора. Также будет очень шумно, полно ошибок, упущений и просто странных записей. Тот, у кого есть доступ к данным, теперь должен выяснить, как сделать их полезными, прежде чем они смогут взломать алгоритмическую разработку. Данные уровня C готовы к передаче разработчикам ИИ, но еще далеки от того, чтобы быть полезными.

Пусть это Б…

Теперь данные необходимо усовершенствовать до уровня B, структурировав их, убедившись, что они репрезентативны для данных, которые, как вы думаете, у вас есть, и запустив визуализацию, чтобы получить представление о характеристиках шума и других показателях анализа. Этот процесс на самом деле даже сложнее, чем этап от D до C, поскольку он индивидуален для каждого набора данных. Не существует стандартного способа проверки данных медицинской визуализации, и каждая отдельная группа, имеющая доступ к вашим данным, будет выполнять свою собственную визуализацию и анализ данных. Это связано с тем, что данные из разных больниц будут иметь разные характеристики и иметь разные форматы (например, разные заголовки DICOM, отметки даты и времени и т. Д.). Процесс преобразования уровня C в B может занять месяцы - не совсем то, что нужно исследователям или стартапам в гонке за золотом. Только с данными уровня B вы можете иметь представление о том, что с ними возможно, и где ИИ можно использовать для решения реальных проблем.

Просто лучший (лучше всех остальных)

Данные уровня А - это данные, которые максимально близки к идеальным для алгоритмической разработки - они структурированы, полностью аннотированы, имеют минимальный уровень шума и, что наиболее важно, контекстно уместны и готовы к конкретной задаче машинного обучения. Примером может служить полный набор данных из 1 миллиона ультразвуковых исследований печени с указанием возраста пациента, пола, показателя фиброза, результатов биопсии, функциональных тестов печени (LFT) и диагностики, все структурированные с использованием одних и тех же мета-тегов, готовые для расчета алгоритма глубокого обучения. определить, какие пациенты подвержены риску неалкогольной жировой болезни печени (НАЖБП) на УЗИ в B-режиме.

Аннотации, пожалуй, самая сложная часть в уточнении набора радиологических данных - в идеале каждый найденный снимок должен быть аннотирован опытным радиологом, чтобы все возможные патологии были точно и согласованно выделены во всем наборе данных. Проблема в том, что практически любые существующие данные медицинской визуализации где-либо в мире аннотируются таким образом. Фактически, большинство изображений в дикой природе даже не снабжены аннотациями. Вот почему существует целая отрасль, сосредоточенная на тегах данных. Вы когда-нибудь входили на сайт, и вас просили нажать на изображения с дорожными знаками или автомобилями? Вы помечаете данные для алгоритмов беспилотных автомобилей! Конечно, не каждый интернет-пользователь является радиологом, поэтому эта модель краудсорсинга не работает для медицинской визуализации (если вы не запустите Радиопедию - это бесплатная бизнес-идея для вас, ребята!). Вместо этого исследователи должны выпрашивать или платить радиологу время для аннотирования своих наборов данных - чрезвычайно медленная и дорогостоящая задача (поверьте мне, я потратил 6 месяцев во время моей диссертации, рисуя контуры простаты…). Альтернативой является использование обработки естественного языка (NLP) в отчетах о визуализации для концепций поиска слов и их использование для маркировки изображений - однако эта модель далеко не доказана, чтобы быть достаточно надежной (пока).

Спекулировать, чтобы накапливать

Вышеупомянутые процессы уточнения для получения данных уровня D вплоть до уровня A дороги как с точки зрения времени, так и ресурсов. Слишком часто я вижу, как небольшие исследовательские группы начинают со смелого предложения решить конкретную задачу с помощью машинного обучения, спешат получить доступ к данным, не понимают, почему их алгоритмы никогда не достигают полезного процента точности, а затем сдаются. . Они пытались избежать процесса переработки, и их поймали. Даже крупные игроки, такие как IBM, борются с этой проблемой. У них есть доступ к огромным объемам данных, но требуется непомерно много времени и усилий, чтобы подготовить эти данные, чтобы сделать их действенными и полезными.

Как и в случае с любыми спекулятивными инвестициями, вы должны финансировать развитие инфраструктуры, чтобы извлечь выгоду из дальнейшего развития. Вот почему я предложил национальную структуру для проведения этой работы, которую я назвал Британской радиологической сетью искусственного интеллекта (BRAIN). Идея состоит в том, чтобы использовать недавно объявленную правительством Стратегию наук о жизни для обеспечения финансирования для создания совершенно новой отрасли, основанной на нефтяных месторождениях данных изображений NHS. BRAIN будет действовать как доверительное хранилище данных или хранилище анонимных данных изображений, предоставляя доступ исследователям и компаниям в обмен на долю в интеллектуальной собственности. Создав BRAIN, NHS немедленно доведет готовность данных до уровня C, а затем каждая исследовательская деятельность будет способствовать уточнению объединенных данных, перемещая данные с уровня C на уровень A, создавая богатый ресурс для разработки радиология искусственный интеллект, повышающий ценность набора данных.

Преимущества такой настройки огромны - NHS не только открывает огромные объемы данных, сохраняя контроль, но и получает двойную выгоду от отдачи от разработки ИИ за счет уточнения данных и Имея долю в любом произведенном IP. Кроме того, больницам NHS больше не нужно управлять тысячами соглашений о совместном использовании данных (ресурсоемкая задача) - они просто направляют людей на BRAIN.

Преимущества для исследователей и компаний также значительны - все они получают доступ через централизованное соглашение о совместном использовании данных (больше не нужно суетиться с отдельными больницами поодиночке), объем данных больше, чем все, к чему у них был ранее доступ, и, со временем, они тратят все меньше и меньше ресурсов на уточнение данных и больше времени на разработку полезных алгоритмов. На этом преимущества не заканчиваются - объединяя данные из всей NHS, вы уменьшаете предвзятость в данных и предоставляете алгоритмы более широкому спектру методов визуализации, стилей отчетности и патологий, что в конечном итоге делает алгоритмы конечного продукта более универсальными и доступными для использовать в любых условиях.

Развитие новой индустрии

Закон Меткалфа гласит, что ценность сети растет по мере увеличения квадрата числа ее пользователей (просто посмотрите на Facebook или Twitter - огромные сети, огромная ценность). Благодаря централизованному доступу к большому объему данных и приглашению к участию сотен исследователей вы немедленно и резко увеличиваете ценность сети. Все, что для этого нужно, - это обязательство установить его. Достаточно взглянуть на успех Британского биобанка, чтобы понять, почему такая сеть так важна (а у них всего чуть более 1000 МРТ).

Пейзаж с искусственным интеллектом в радиологии похож на Дикий Запад - и ему нужен шериф в городе. Объединяя структурированные данные, Великобритания и Национальная служба здравоохранения могут создать новую отрасль исследований, получая при этом плоды. Это моя большая мечта о больших объемах данных в области медицинской визуализации и искусственного интеллекта; Надеюсь, я убедил вас разделить это!

Если вы, как и я, взволнованы будущим радиологического искусственного интеллекта, и хотите обсудить эти идеи, пожалуйста, свяжитесь с нами. Я в Твиттере @drhughharvey

Если вам понравилась эта статья, будет действительно полезно, если вы нажмете "Рекомендовать" и поделитесь ею.

Об авторе:

Д-р Харви - сертифицированный радиолог и клинический академик, прошел обучение в Национальной службе здравоохранения и ведущем европейском научно-исследовательском институте рака, ICR, где он дважды был удостоен звания научного писателя года. Он работал в Babylon Health, возглавляя команду по нормативно-правовым вопросам, получил первую в мире маркировку CE для службы сортировки, поддерживаемой искусственным интеллектом, а теперь является радиологом-консультантом, членом комитета по информатике Королевского колледжа радиологов и советником стартапа AI. компании, в том числе Kheiron Medical.