Ответ на: Надлежащая практика машинного обучения для разработки медицинских устройств: руководящие принципы | gov.uk

в соавторстве с Часом Нельсоном, техническим директором gliff.ai

Надлежащая практика машинного обучения: руководящие принципы

MHRA (Великобритания), FDA (США) и Министерство здравоохранения Канады совместно опубликовали свои десять руководящих принципов для разработки медицинских устройств на основе машинного обучения (GMLP). Их намерение состоит в том, чтобы эти принципы помогли продвигать безопасные, эффективные и высококачественные медицинские устройства, использующие искусственный интеллект и машинное обучение (AI/ML).

В gliff.ai мы думаем, что в этих принципах есть что любить, и они тесно связаны с тем, что мы пытаемся сделать. Однако мы считаем, что можно было бы внести немного больше ясности в формулировку, а также в то, как эти принципы могут быть реализованы на самом деле. Эта статья является нашей интерпретацией этих принципов. Мы надеемся, что эта статья поможет тем, кто разрабатывает медицинские устройства с машинным обучением!

Первый принцип: использование многопрофильного опыта на протяжении всего жизненного цикла продукта

контекст

По сути, нам необходимо привлекать клинических (и других соответствующих) экспертов с самого начала, от первоначальной идеи, через процесс разработки модели машинного обучения (ML), а также на протяжении всего жизненного цикла устройства, включая после развертывания.

Итак, каков общий жизненный цикл продукта? Что ж, хотя в этой статье не место для подробного обсуждения всех компонентов жизненного цикла, возможно, стоит уточнить, что общий жизненный цикл продукта машинного обучения включает две отдельные фазы: разработку и развертывание.

Давайте возьмем слишком упрощенный сценарий — специалист по данным, придумывающий идею самостоятельно, по сравнению с специалистом по данным и клиницистом, работающими в команде на протяжении всего жизненного цикла продукта. Возможно, наши сценарии могут выглядеть примерно так:

Мы видим, как этот процесс пошел не так с самого начала. Идея, пришедшая от ученого, работающего в одиночку, которая может быть отличным ML, не стала полезным клиническим решением, возможно, потому что:

  • в этом решении нет неудовлетворенной клинической потребности (т. е. идея не была инициирована потребностями клинициста или пациента);
  • данные, используемые для обучения ML, не являются репрезентативными для группы пациентов (см. третий руководящий принцип) — клиницист или эксперт по данным в области здравоохранения мог бы решить эту проблему, поскольку они знают интересующую популяцию пациентов;
  • «экспертные» аннотации к данным, например. диагностическая или прогностическая информация не были собраны должным образом, возможно, аннотации были даже сделаны самим специалистом по данным — как клинические пользователи и пациенты могут доверять обученному машинному обучению, не доверяя аннотаторам данных?
  • обученный ML не обеспечивает общей пользы для пациента (например, из-за недостаточной чувствительности или специфичности) или увеличивает риск для пациента (например, из-за того, что для сбора данных требуется специальная хирургическая процедура)
  • конечный продукт не работает в клинических условиях, потому что при разработке не учитывался пользовательский опыт, формат входных или выходных данных приложения не подходит, или, возможно, приложение предполагает, что пользователь является пациентом, когда пользователь на самом деле клиницист;
  • конечный продукт нельзя отслеживать после развертывания.

Конечный результат: никакой пользы для клинициста, никакой пользы для пациента.

реализация

Для реализации Принципа 1 клинический эксперт должен быть явно вовлечен, чтобы упростить сбор и сохранение его вклада в процессе разработки машинного обучения и развертывания продукта (и за его пределами).

Во время разработки клинические эксперты должны работать вместе с экспертами по данным для обработки и аннотирования данных и иметь возможность направлять разработку модели ML для ее предполагаемого использования. Это может быть реализовано с помощью инструментов без кода / с низким кодом, созданных с учетом уникальных задач, связанных с медицинскими данными. Эти инструменты должны дать клиницистам возможность руководить жизненным циклом продукта машинного обучения и позволить тем, кто находится на переднем крае, обосновывать ожидаемые преимущества и риски для пациентов, а также то, как и где предоставляется существующая помощь.

Второй принцип: внедрение надлежащей практики разработки программного обеспечения и обеспечения безопасности

контекст

Как и общий жизненный цикл продукта, этот принцип можно рассматривать с двух разных точек зрения: разработка машинного обучения и развертывание машинного обучения.

Во время разработки с самого начала должны быть заложены основы обеспечения качества данных и надежных методов кибербезопасности. Часто данные представляют собой реальные данные пациента, анонимные или нет, и к ним необходимо относиться с соблюдением принципа конфиденциальности. Таким образом, обеспечение того, чтобы ваш набор данных соответствовал правилам безопасности, — это первый фактор, который вам необходимо учитывать. И разные источники данных по-разному влияют на качество и безопасность:

  • Данные, контролируемые пациентом или «краевые» данные, когда пациенты контролируют свою медицинскую информацию и точно выбирают, кому, почему и когда данные могут быть опубликованы. Для максимальной безопасности в этом сценарии данные никогда не будут покидать собственное хранилище данных пациента.
  • «Институциональные» данные, где большие наборы данных были созданы в ходе повседневной работы медицинских учреждений, например. отдельные фонды NHS или всю NHS в Великобритании. В настоящее время эти типы данных контролируются через доверенные исследовательские среды (TRE) или безопасные убежища, и доступ к ним можно получить с помощью сквозного шифрования или федеративных подходов для повышения безопасности.
  • Общедоступные наборы данных, часто создаваемые путем объединения наборов данных из учреждений или краудсорсинга от пациентов. Здесь безопасность данных достигается за счет анонимизации, но, хотя такие наборы данных кажутся мощными, в недавней статье Nature Machine Intelligence подчеркивается, что общедоступные наборы данных часто имеют множество проблем, которые не позволяют использовать их для производственного машинного обучения.

И затем, по мере разработки самой модели, должны быть внедрены передовые методы разработки программного обеспечения (включая методическое управление рисками и процессы проектирования), чтобы надлежащим образом фиксировать и сообщать обоснования и решения по проектированию, внедрению и управлению рисками. Говоря простым языком — почему было принято каждое решение?

реализация

Внедрение передовых методов разработки программного обеспечения и обеспечения безопасности является специализированной деятельностью, и в некоторой степени это отражает первый пункт. Помимо участия клиницистов на каждом этапе, необходимо привлекать инженеров данных и ученых по машинному обучению, чтобы обеспечить наилучшую практику на всех этапах.

Принцип третий: участники клинического исследования и наборы данных являются репрезентативными для предполагаемой популяции пациентов

контекст

Дважды меня спрашивали: «Молитесь, мистер Бэббидж, если вы введете в машину неправильные цифры, будут ли получены правильные ответы?» … Я не могу правильно понять, какая путаница идей может вызвать такой вопрос.

— Чарльз Бэббидж, Отрывки из жизни философа

Или на современном английском языке — мусор на входе, мусор на выходе!

Чтобы результаты модели машинного обучения можно было надлежащим образом обобщить для предполагаемой популяции пациентов, набор данных должен быть репрезентативным для этой популяции. Нет смысла разрабатывать и тестировать машинное обучение исключительно на данных о женщинах, если его использование запланировано. исключительно для мужчин, даже если функции, которые, как вы думаете, будут использоваться в вашем ML, являются общими для обоих полов.

Разработчики модели должны обеспечить достаточное представление соответствующих характеристик предполагаемой популяции пациентов и факторов, связанных с пациентом, местом и сбором данных, в базе данных соответствующего размера. Характеристики включают, например, возраст, пол, пол, расу и этническую принадлежность, а также то, для чего используются данные, и другие клинические данные, такие как результаты анализа крови или жалобы на лечение.

Без учета всех этих потенциально влияющих факторов наборы данных и обученные на них модели машинного обучения могут быть предвзятыми, несбалансированными или нерепрезентативными — и приводить к непригодным для использования или, что еще хуже, небезопасным результатам.

реализация

Включение характеристик данных в наборы данных (т. е. метаданных) позволяет разработчикам моделей оценивать (и, возможно, смягчать) предвзятость и несбалансированность, оценивать удобство использования и выявлять обстоятельства, при которых модель может работать неэффективно (пограничные случаи).

Чем больше метаданных в наборе данных, тем больше факторов можно тщательно и надежно исследовать. И наоборот, чем больше метаданных в наборе данных, тем больше информации о пациенте, позволяющей установить личность, также может привести к потенциальному риску конфиденциальности и безопасности данных.

Одним из решений этого риска является использование таких методов, как сквозное шифрование данных, которое является одним из самых высоких стандартов безопасности данных (и который gliff.ai использует для данных клиентов), чтобы гарантировать, что утечки или нарушения данных невероятно маловероятны. и таким образом уменьшить этот риск.

Принцип четвертый: наборы данных для обучения не зависят от наборов тестов

контекст

Давайте начнем этот принцип с небольшого разъяснения терминологии, используемой более широким сообществом машинного обучения.

  • Необработанный набор данных — все данные, используемые для обучения и тестирования ML, которые могут быть либо аннотированы (клиницистами; для контролируемого ML), либо неаннотированы (для неконтролируемого ML). Полный набор данных будет огромным (100 000 элементов) и должен удовлетворять третьему принципу (см. выше).
  • Обучающие данные — подмножество исходного набора данных, используемое только для обучения машинного обучения. Скорее всего, это будет 80–90% исходного набора данных. Обучающие данные могут использоваться для «проверки», шага, используемого в обучении ML для обеспечения наилучших результатов, но не используются для тестирования производительности обученного ML.
  • Тестовые данные — оставшаяся часть необработанного набора данных используется только для тестирования обученного машинного обучения. Ни один из данных тестирования не включен в данные обучения, чтобы гарантировать, что производительность обученного машинного обучения проверяется на новых или «слепых» данных.

Четвертый принцип подчеркивает, что данные обучения и тестирования должны быть независимы друг от друга. В более широком сообществе машинного обучения обычно достаточно гарантировать, что строки/элементы набора данных не повторяются в данных обучения и тестирования. . Однако в медицинском пространстве два предмета могут быть двумя разными медицинскими сканами одного и того же пациента.

реализация

Следует учитывать все потенциальные источники зависимости, включая факторы, связанные с пациентом, местом и сбором данных. Чтобы реализовать этот принцип, разработчики моделей ML должны иметь возможность анализировать зависимости в наборах данных и, следовательно, им нужны данные, которые включают потенциально идентифицируемые метаданные.

Кроме того, несмотря на то, что данные обучения и тестирования должны быть независимыми, разработчики моделей должны иметь возможность продемонстрировать, что они прошли одинаковую проверку качества и обработку данных. Для этого разработчикам моделей следует использовать программные инструменты, которые обеспечивают сочетание версий наборов данных и тщательный контрольный журнал, чтобы обеспечить ясность в отношении всей подготовки данных и предпринятого разделения набора данных.

Принцип пятый: выбранные справочные наборы данных основаны на наилучших доступных методах

контекст

Еще одно определение, вытекающее из четвертого принципа:

  • Справочный набор данных — совершенно отдельный набор данных с созданным человеком «золотым стандартом» и клинически значимыми аннотациями. Этот набор данных вообще не используется во время разработки ML, а скорее как отдельный этап оценки производительности между разработкой и развертыванием модели ML. Как и необработанный набор данных, эти данные должны удовлетворять третьему принципу (см. выше). В отличие от исходного набора данных, эталонный набор данных может находиться у независимой стороны, которая может оценить модель без личной заинтересованности.

При наличии при оценке модели следует использовать эталонные наборы данных, чтобы продвигать и демонстрировать надежность и обобщаемость модели для предполагаемой популяции пациентов.

реализация

Разработчики моделей должны иметь возможность доступа к эталонным наборам данных с помощью тех же процессов, что и наборы данных для обучения и тестирования, и быть уверенными в том, что набор эталонных данных соответствует а) характеристикам соответствующей популяции пациентов и б) характеристикам наборов данных для обучения/тестирования.

Принцип шестой. Дизайн модели адаптирован к имеющимся данным и отражает предполагаемое использование устройства.

контекст

К сожалению, модели машинного обучения еще не являются «общими» — т. е. каждая модель предназначена для выполнения конкретных задач и с предположениями о входных данных. Таким образом, любое медицинское устройство ML должно сопровождаться четким набором спецификаций, касающихся предполагаемого использования модели (задача и предполагаемая группа), и реальные данные, которые будут использоваться в клинике конечными пользователями.

Как только использование и данные будут хорошо изучены, дизайн модели ML может быть адаптирован к этим доступным данным, а специалисты по данным могут поддерживать активное снижение известных рисков, таких как переобучение, снижение производительности и риски безопасности в модели.

реализация

Чтобы реализовать это, разработчики модели ML должны иметь повторяемый набор тестов для известного набора данных и рисков, связанных с моделью ML. Поскольку целью понимания рисков является смягчение их воздействия на пациентов, эти риски следует оценивать в зависимости от условий клинического использования, и должно быть просто показать, что все выявленные риски были оценены и/или снижены.

Риски, которые, как считается, влияют на пациентов, можно снизить, либо добавив больше данных в наборы данных для улучшения представления (принцип 3), либо изменив пользовательские интерфейсы для улучшения команды человека и ИИ (принцип 7).

Принцип седьмой: основное внимание уделяется производительности команды «человек-ИИ».

контекст

В медицинских устройствах машинного обучения есть две группы людей и ИИ: команда разработчиков и команда конечного пользователя.

Команды разработчиков должны сосредоточиться на использовании принципа «человек в цикле», когда опытный человек руководит циклической разработкой машинного обучения, чтобы обеспечить реализацию принципов с первого по шестой.

реализация

Важно учитывать, как пользователи-люди реагируют на вывод ИИ и как это может изменить уход за ними. Производительность команды конечного пользователя и искусственного интеллекта должна быть предсказуемой и обеспечиваться хорошей разработкой программного обеспечения и практикой взаимодействия с пользователем (принцип второй).

Здесь gliff.ai считает, что человек-в-петле должен быть перевернут, и цель должна состоять в том, чтобы иметь «ИИ-в-петле». В этом случае человек (например, врач или пациент) контролирует и ведет процесс. Медицинское устройство машинного обучения поддерживает этого человека, предоставляя интерпретируемые выходные данные, которые можно использовать для выполнения поставленной задачи (Девятый принцип).

Принцип восьмой: Тестирование демонстрирует работу устройства в клинически значимых условиях

контекст

Медицинские устройства используются не изолированно или исключительно в лаборатории, а с людьми, в клинике или в полевых условиях. Аппарат МРТ был бы бесполезен, если бы для его питания требовалось больше электроэнергии, чем может обеспечить национальная сеть — все остальное больничное оборудование вышло бы из строя. Точно так же МРТ-изображения были бы менее полезными, если бы вам нужна была докторская степень по физике, чтобы понимать их. Точно так же медицинские устройства ML должны быть практичными и пригодными для использования в соответствующих клинических условиях и интерпретироваться врачами в этих условиях.

реализация

Для реализации восьмого принципа испытания, предназначенные для оценки медицинского изделия ОД, должны проводиться точно в тех же условиях, в которых предполагается использовать изделие. И ограничения оценки должны быть четкими, чтобы медицинские изделия ОД не использовались ненадлежащим образом. в сценариях, для которых они не были должным образом протестированы.

Такие оценки должны быть постоянными для медицинских устройств ML, например. когда наборы обучающих данных улучшаются или изменяются клинические условия, или данные генерируются новым производителем/моделью устройства визуализации.

Как и в случае с третьим принципом, эти тесты должны учитывать совокупность данных, представленную данными, и учитывать, как эти факторы могут также исказить оценку и/или будущее клиническое использование.

Принцип девятый: пользователям предоставляется четкая и важная информация

контекст

Попросите специалиста по данным ответить на вопрос, и вы можете столкнуться с потоком технической информации, статистики и предостережений. Но всегда ли это то, что нужно врачу или пациенту, использующему медицинское устройство ML? Возможно нет.

Так что же нужно конечному пользователю от медицинского устройства машинного обучения? Ну, это, очевидно, будет зависеть от контекста. Однако при предоставлении конечному пользователю выходных данных на любом медицинском устройстве ML необходимо учитывать определенные ключевые особенности.

Для gliff.ai этот принцип напоминает лекарства — будь то рецептурные или безрецептурные:

  • Возьмите с полки пачку болеутоляющих средств, и вы заметите, что на передней части упаковки написано, что это за болеутоляющее, его предполагаемое применение (обезболивающее, противовоспалительное, головная боль и т. д.) и доза — первая важная отображаемая информация. очень четко, чтобы предотвратить случайную путаницу двух препаратов.
  • Затем посмотрите на обратную сторону упаковки — теперь вы увидите правильное использование (две таблетки два раза в день, не менее четырех часов между приемами, не принимайте более четырех таблеток в день и т. д.), а также ключевые предупреждения. об употреблении продуктов (размеры передозировки, опасность для детей или других подгрупп, аллергены) — вторая группа важной информации, опять же отображаемая очень наглядно для предотвращения случайного неправильного употребления препарата.
  • Наконец, вы увидите на упаковке надпись «Пожалуйста, прочитайте прилагаемый листок-вкладыш перед использованием», и при этом вы узнаете все предостережения, касающиеся побочных эффектов, частоты побочных эффектов, подгрупп, на которых препарат не тестировался, например. не тестировалось на беременных женщинах, и многое другое — третья группа важной информации, которая гарантирует, что пользователи имеют полное представление о предполагаемом применении лекарства, а также о «эффективности» этого лекарства и его оценке.

реализация

Междисциплинарная команда, созданная в соответствии с Принципом 1, должна включать экспертов по пользовательскому интерфейсу/пользовательскому опыту и визуализации данных, которые могут повторить этот подход при разработке интерфейсов для медицинских устройств ML. Перед использованием устройства пользователь должен знать, что это за устройство и для чего его следует использовать (лицевая сторона упаковки); как пользоваться устройством и возможные опасности (обратная сторона упаковки); и каковы ограничения и последствия используемого устройства (листовка).

Однако, в отличие от обезболивающих, медицинские устройства ML также имеют результат, как тест на беременность, и, опять же, эксперты по пользовательскому интерфейсу/пользовательскому опыту и визуализации данных, разрабатывающие медицинские устройства ML, должны подумать, как лучше всего обеспечить, чтобы результат был доставлен конечному пользователю как можно более понятным. и лаконичным, насколько это возможно — с осознанием того, что информация «буклета» информирует пользователей о таких вещах, как обновления или модификации медицинских устройств ML.

Принцип десятый: развернутые модели контролируются на предмет производительности, а риски повторного обучения управляются

контекст

Существует множество причин, по которым характеристики медицинского устройства машинного обучения могут измениться после выпуска продукта. Изменения в популяции пациентов могут означать, что соображения Третьего Принципа больше не действуют; аналогичным образом изменения в клинической среде (принцип девятый) могут повлиять на работу команды искусственного интеллекта человека. Таким образом, модели должны постоянно контролироваться, чтобы гарантировать отсутствие ухудшения характеристик, которое потенциально может привести к нанесению вреда пациенту.

Распространенным решением этой проблемы является регулярная переобучение медицинского устройства машинного обучения на обновленных наборах данных, которые также подчиняются описанным выше принципам. Переподготовка связана с потенциальными рисками, т.е. медицинское устройство ML может предоставлять различную диагностическую/прогностическую информацию для пациента до и после переобучения. Таким образом, переобучение моделей должно проходить такой же строгий контроль, как и разработка исходной модели, т. е. сравнение с высококачественными эталонными наборами данных (Пятый принцип); основное внимание уделяется команде человека и искусственного интеллекта (принцип семь) и клинически значимому тестированию (принцип восьмой) и так далее.

реализация

Этот принцип подчеркивает необходимость постоянно учитывать измерения производительности, оценку и снижение рисков на протяжении всего жизненного цикла разработки и жизненного цикла продукта. Эти процессы могут быть одинаковыми как для разработки, так и для мониторинга после развертывания, и они охватываются принципами с первого по девятый.

Одним из ключевых практических последствий является то, что наборы данных для обучения/тестирования и модели машинного обучения должны контролироваться версиями с возможностью легкого отката устройства до более ранней, более производительной версии и/или сравнения производительности моделей разных версий, обученных на разных наборах данных. Это приводит медицинские устройства ML в соответствие со стандартными отраслевыми практиками разработки программного обеспечения (см. второй принцип).