Вдохновение: я наткнулся на базу данных по малярии после прочтения статьи Карлоса Атико Арисы.

Зачем создавать модель глубокого обучения для прогнозирования малярии?

Малярия - это болезнь, переносимая комарами, вызываемая различными видами малярийных паразитов. Это непропорционально сильно влияет на бедные ресурсами районы мира, приводя к гибели людей и тяжелому экономическому бремени. Согласно веб-сайту CDC, в 2016 году произошло 216 миллионов случаев малярии, из которых 445000 закончились смертельным исходом. Большинство из них были детьми. Первоначально у пациентов, инфицированных малярией, разовьются симптомы гриппа. В тяжелых случаях у пациентов могут развиться затруднения дыхания и запятая. Очень важно как можно скорее диагностировать малярию, чтобы предотвратить распространение болезни в обществе. Золотой стандарт диагностики малярии - анализ мазка крови под микроскопом. Капля крови пациента наносится на предметное стекло и окрашивается красителем Гимза. Если посмотреть под микроскопом, это пятно выделит паразита. Диагноз зависит от качества пятна и опыта человека, читающего слайд. Согласно протоколу ВОЗ, обученный врач / техник должен смотреть в 20 микроскопических полей при 100-кратном увеличении. Они должны подсчитать количество паразитов в 5000 клетках. Как вы понимаете, это очень трудоемкий процесс, подверженный ошибкам. Алгоритм глубокого обучения для обнаружения малярийных паразитов с высокой отрицательной прогностической ценностью сделает этот процесс менее обременительным и сэкономит драгоценное время медицинского персонала.

История базы данных

Национальный институт здравоохранения осознал вышеупомянутую проблему и приступил к созданию базы данных изображений. Исследователи из Национального центра биомедицинских коммуникаций Листера Хилла (LHNCBC) разработали мобильное приложение, работающее на стандартном смартфоне Android, которое можно подключить к микроскопу. Это приложение использовалось для получения снимков мазка крови пациента с малярией и без нее в Бангладеш. Позже эти изображения были аннотированы исследователями из Таиланда. Из этих изображений были сегментированы эритроциты, и была создана окончательная база данных. Вы можете узнать больше об этом и загрузить набор данных по адресу https://ceb.nlm.nih.gov/repositories/malaria-datasets/

Текущее решение, предложенное группой NIH

Исследователи из NIH использовали указанную выше базу данных для создания моделей глубокого обучения с использованием AlexNet, VGG-16, Resnet-50, Xception, DenseNet -121 и настроенной CCN. Они обучили модель, используя систему Windows® с процессором Intel® Xeon® CPU E5–2640v3 2,60 ГГц, 16 ГБ ОЗУ, графическим процессором (GPU) Nvidia® GTX 1080 Ti 11 ГБ с поддержкой CUDA, MATLAB® R2017b, Python ® 3.6.3, Keras® 2.1.1 с бэкэндом Tensorflow® 1.4.0 и зависимостями CUDA 8.0 / cuDNN 5.1 для ускорения графического процессора ». Лучшие показатели производительности были получены в основном по модели ResNet-50. Ниже была статистика

Они прекратили запуск настроенных моделей после 15k итераций, при которых точность проверки перестала улучшаться, и это заняло примерно 24 часа. Полная статья NIH доступна по адресу https://lhncbc.nlm.nih.gov/system/files/pub9752.pdf

Зачем создавать другую модель?

Изначально я хотел поработать с данными, чтобы увидеть, смогу ли я сопоставить их производительность и в процессе улучшить свои навыки глубокого обучения.

Цели проекта

1. Создайте модель глубокого обучения, которая может соответствовать производительности решения NIH без использования графического процессора.

2. Создайте модель значительно меньшего размера, чтобы ее можно было развернуть на мобильных телефонах.

3. Создайте модель с лучшими показателями производительности, чем та, что упоминается в документе, опубликованном командой NIH.

4. Используйте Fastai ad Turicreate, чтобы сократить количество итераций и время обучения, но сохранить производительность.

5. Откройте исходный код, чтобы другие могли повторить мои эксперименты.

Почему Turicreate?

Turicreate - платформа машинного обучения от Apple. Turicreate можно использовать для создания моделей глубокого обучения на вашем ноутбуке без использования графического процессора. Если доступен графический процессор, его также можно использовать для сокращения времени обучения. Даже без графического процессора Turicreate может создавать модели за гораздо более короткое время. Вы можете создавать современные модели, используя несколько строк кода. Созданные модели можно легко развернуть на устройстве iOS. Его также можно развернуть как веб-сервис.

Статистика Turicreate

Модель SqueezeNet была меньше 5 МБ. ResNet-50 тоже пробовал, особой разницы в производительности не увидел. Щелкните здесь, чтобы получить доступ к исходному коду, доступному в репозитории Github.

Почему Фастай?

Fastai - платформа глубокого обучения, ставшая популярной благодаря онлайн-курсу Джереми Ховарда. Новую библиотеку fastai можно использовать для создания современных моделей с помощью нескольких строк кода. Fastai можно запустить на платформе Google Colab, которая предоставляет бесплатный графический процессор Telsla K80 на 12 часов за раз. Объединив Fastai и Colab, любой исследователь во всем мире может использовать бесплатный графический процессор для создания моделей за меньшее время без каких-либо затрат.

Полный код модели Fastai доступен здесь.

Модель Fastai может быть развернута как веб-сервис. "Нажмите сюда, чтобы узнать больше.

Сравнение подходов Turicreate, Fastai и NIH.

Лучшая статистика выделена жирным шрифтом. (См. Приложение ниже)

* Статистика NIH взята из разных моделей. В целом, наиболее эффективными моделями в исследовании NIH были модели ResNet-50 и VGG-16.

Исходя из этого, модель Fastai побеждает в конкурсе! Коэффициент корреляции Мэтьюза считается лучшим показателем для медицинских тестов с бинарными исходами, а модель Fastai имеет лучший MCC. Для создания модели Turicreate потребовалось всего 13 минут, и она имела сопоставимые характеристики. NIH провел пятикратную перекрестную проверку, я не делал этого для своих моделей. Если вам интересно, вы можете прочитать статью NIH и провести пятикратную перекрестную проверку. Если да, отправьте свои ответы ниже.

Дополнение от 13.11.2018

Сегодня я отправил электронное письмо автору-корреспонденту исследования NIH, Сиварамакришнану Раджараману. Он указал мне на показатели уровня ячеек и точное сравнение с Fastai. Таблица, составленная доктором Раджараманом, прилагается ниже.