Часть 2

В первой части этой серии я рассмотрел проблему машинного обучения (МО) и искусственного интеллекта (ИИ), в которой сообщалось об исследованиях, не соответствующих существующим рекомендациям, основанным на фактических данных, и в результате часто считалось, что они имеют низкое качество. Это серьезная проблема, учитывая распространение прогностических аналитических исследований. Например, сообщалось о почти 800 прогностических исследованиях только сердечно-сосудистых заболеваний. Я упомянул несколько руководств, таких как TRIPOD и CHARMS, в которых изложено, как следует проводить эти исследования и сообщать о них. Существуют также рекомендации по риску предвзятости, такие как Инструмент оценки риска предвзятости модели прогнозирования (PROBAST), о котором я не упоминал. Этот инструмент оценивает риск систематической ошибки и применимость прогностических диагностических и прогностических исследований. Смещение в этом контексте означает любой фактор исследования, который негативно влияет на результат или производительность модели.

Я не упомянул конкретные недостатки, связанные с моделированием ML/AI, о которых я расскажу во второй части. Существенные недостатки можно разделить на следующие категории:

  • Оценка модели
  • Производительность модели
  • Обобщаемость
  • Проблемы с данными
  • Отсутствие анализа мощности

Оценка модели. Термин валидация вызывает путаницу, поскольку используется неточно. Валидация в данном контексте означает оценку модели. Некоторые использовали термин проверка для небольшого набора данных, используемого для настройки параметров алгоритма. Недавнее руководство предполагает, что лучшим термином будет настройка набора данных. Наиболее распространенным методом проверки модели является разделение данных на поезд/тест. Например, 70% данных можно использовать для обучения, а остальные — для тестирования производительности модели. Этот подход также называется внутренней проверкой, поскольку данные, используемые для проверки, были получены из исходного набора данных. Проблема в том, что это дает слишком оптимистичные результаты, потому что тестовые данные очень похожи на обучающие данные. Хотя перекрестная проверка в k-кратном порядке является приемлемой альтернативой для внутренней проверки, многие эксперты в настоящее время рекомендуют самозагрузочную , при которой создается несколько новых случайных выборок, а данные возвращаются в исходный набор данных (замена), и этот процесс повторяется многократно. Начальная загрузка помогает с ограниченными данными, уменьшает переоснащение и может создавать доверительные интервалы. Более подробную информацию можно найти здесь. Эксперты также рекомендуют использовать для проверки внешние данные. Это могут быть данные, полученные из другого источника (другая больница или клиника) или другие временные рамки. Примером может быть то, что модель была обучена на наборе данных NHANES за 2015–2016 годы, но протестирована на наборе данных за 2017–2018 годы. Реальность такова, что немногие исследования сообщают о внешней проверке. Исследование 2019 года ИИ, используемого для медицинской визуализации, показало, что только 6% исследований использовали внешнюю проверку. Кроме того, некоторые органы власти рекомендуют, чтобы тестирование в идеале проводилось независимой группой.

Производительность модели. Эксперты рекомендуют сообщать о калибровке и различении всех исследований по моделированию машинного обучения и искусственного интеллекта, хотя они редко сообщаются вместе.

  • Калибровка относится к согласию между наблюдаемым результатом и прогнозом. Его следует проверить с помощью калибровочного графика и/или теста Хосмера-Лемешоу. Ниже показан калибровочный график для наблюдаемой и прогнозируемой смертности в течение 1 года от сердечной недостаточности.

  • Дискриминация означает, насколько хорошо модель различает или различает субъектов с интересующим заболеванием по сравнению с теми, у кого это состояние отсутствует. Дискриминация представлена ​​в виде характеристической кривой оператора приемника (C-статистика или AUC) с доверительными интервалами. Если создается классификационная модель, меры должны включать как минимум чувствительность и специфичность.

Обобщаемость. Данные, используемые для создания и тестирования модели, должны отражать интересующую совокупность. Во многих моделях используются смоделированные или синтетические данные (известные как in silico), поэтому их нельзя обобщить на изучаемую группу. Кроме того, некоторые наборы данных легко доступны, но не подходят для всех условий. Например, многие исследователи использовали деидентифицированный набор данных MIMIC III о 63 532 пребываниях в отделении интенсивной терапии для создания моделей, но пациенты отделения интенсивной терапии отличаются от обычных стационарных и амбулаторных пациентов.

Проблемы с данными. Очень не хватает высококачественных и объемных данных о пациентах, которыми можно было бы поделиться. Чаще всего это связано с проблемами конфиденциальности, связанными с правилами HIPAA. Отсутствие соответствующих данных часто является причиной, по которой исследователи предпочитают использовать смоделированные данные.

  • Ограниченный выбор — большая часть моделирования и обучения машинного обучения основана на ограниченном количестве наборов данных, которые неоднократно использовались, таких как наборы данных iris, Titanic и MNIST, и это лишь некоторые из них. Нам нужны более современные, большие и качественные наборы данных
  • Небольшие наборы данных — в исследовании 2016 года по прогностической аналитике сообщается, что средний размер субъектов в рассмотренных исследованиях составлял 445 человек. Имейте в виду, что при использовании классического разделения данных обучения/тестирования это приводит к небольшому набору тестовых данных (445 человек). х .3 = 133). Если класс меньшинства составляет 5% (например, рак) от общего набора данных, то в тестовом наборе может быть только около 7 примеров класса меньшинства (133 x 0,05 = 7). Машинное обучение дает лучшие результаты с большими наборами данных и меньшей вероятностью переобучения.
  • Низкое качество — в большинстве исследований ИИ используется обучение с учителем, что означает, что изображения должны быть помечены перед обучением модели. Например, «злокачественный легочный узел в левой верхней доле». Эти помеченные наборы данных не всегда проверяются или происхождение интерпретации неизвестно.
  • Отсутствие прозрачности данных — меньшинство наборов данных является общедоступным, поэтому исследователи или рецензенты не могут независимо запускать свои собственные модели и подтверждать результаты. Некоторые эксперты считают, что если данные не могут быть переданы, вместо этого следует предоставить общий доступ к исходному коду. Многие авторы включают свой код, например. Гитхаб
  • Отсутствие перспективных данных — большинство данных для моделирования основаны на ретроспективных наблюдениях, а не на перспективных данных, поэтому вероятность того, что результаты будут достоверными, меньше. Модель машинного обучения или искусственного интеллекта должна быть подтверждена проспективным контролируемым исследованием и опубликована в рецензируемом медицинском журнале. Nagedren сообщил, что они нашли только одно рандомизированное исследование медицинской визуализации ИИ, зарегистрированное в США, несмотря на то, что 16 алгоритмов глубокого обучения для медицинской визуализации были одобрены FDA.
  • Тестовые данные — тестовые наборы данных должны быть одинаковыми для людей и ИИ — в исследованиях, в которых точность ИИ сравнивалась с людьми для интерпретации изображений, тестовый набор часто отличался между двумя группами исследования. Тестовые данные должны быть одинаковыми для обоих.

Отсутствие мощного анализа — высококачественные исследования «мощны», чтобы показать конкретный размер эффекта на основе рассчитанного размера выборки. В большинстве исследований, связанных с машинным обучением и искусственным интеллектом, анализ мощности не упоминается.

Есть много других областей, которые нуждаются в улучшении в проведении исследований моделирования машинного обучения и искусственного интеллекта и составлении отчетов для прогнозирования. Многие из этих тем сложны и выходят за рамки данной статьи. Для получения дополнительной информации читатели могут обратиться к различным руководствам.

Мы будем продолжать видеть новые рекомендации, публикуемые в этой области. В июне 2020 года MINimum Information for Medical AI Reporting (MINIMAR) был опубликован в качестве руководства по медицинской отчетности по ИИ. Как уже упоминалось, TRIPOD выпустит более подробные руководства, касающиеся машинного обучения и ИИ, а другие руководства, такие как CONSORT и SPIRIT, планируют расширить свои руководства по ИИ. Это всегда будет незавершенной работой, учитывая динамичный характер науки о данных.

Как и в любой новой научной области, требуется время, чтобы практика догнала национальные или международные рекомендации. Медицинские журналы должны настаивать на соблюдении правил ML/AI для публикации.