Эта статья предназначена для людей, интересующихся машинным обучением, но не обладающих знаниями в области машинного обучения. Мы объясним процесс использования машинного обучения для обнаружения малярии в клетках крови.

Малярия — это заболевание крови, вызываемое паразитом, переносимым определенным видом комаров. Чтобы диагностировать малярию, клетки крови должны быть взяты в мазок и исследованы микроскопистами. Это обследование частично состоит из подсчета клеток крови с паразитами или без них. Это не только трудоемко, но и может повлиять на качество обследования. К счастью, эксперт из Бангкока, Таиланд, пометил более 27000 изображений клеток крови знаком *.

Изучив небольшую часть данных, стало понятно, какие клетки заражены малярией, а какие нет. Вы можете убедиться сами на изображении выше или в прогнозах внизу.

Мы использовали машинное обучение для обнаружения зараженных клеток. Короче говоря, машинное обучение состоит из двух компонентов: алгоритмов и данных. Как и в случае с Pasta Aglio e Olio, когда у вас мало ингредиентов, вы должны убедиться, что они хорошего качества.

Идея машинного обучения заключается в использовании данных для повышения производительности алгоритма. Алгоритм будет учиться на исторических данных, как он может отделять собак от кошек или обнаруживать малярию в клетках крови. Приложений для машинного обучения гораздо больше и точно не все они используются для распознавания изображений, но это лишь некоторые из них.

Для обнаружения малярии мы использовали алгоритм под названием Сверточная нейронная сеть (CNN). Это сделано для обнаружения важных особенностей изображения. Алгоритм сканирует изображение и ищет эти признаки, по которым можно определить, кошка это или собака. (ссылка для более (математического) объяснения.)

Из 27 000 изображений мы использовали примерно 20 000 для создания CNN. Целью остальных 7000 снимков была проверка эффективности. Разделение данных очень распространено *. Определение эффективности осуществляется по показателю точности. Это говорит нам о проценте правильно предсказанных изображений.

Наш результат: точность 94,3%! Это было здорово, но вы не можете определить производительность модели только по ее точности. Как и в случае со средними значениями: они что-то говорят, но точно не всю историю. Итак, мы создали матрицу путаницы.

Матрица путаницы — это визуализация прогнозов. Он показывает для каждой категории, сколько прогнозов было правильным и сколько было неправильным. Это не только говорит нам, сколько ошибок было сделано, но и где.

Как видно из нашей матрицы путаницы ниже, мы правильно предсказали 6514 изображений из 6890, но все же 181 случай ложноотрицательных результатов. Это означает, что мы ошибочно предсказали отсутствие малярии, что опасно.

Хотя часть машинного обучения завершена, мы должны интерпретировать результаты в контексте. Цель создания такого алгоритма — сократить трудозатраты для более качественных обследований. Это означает, что все еще будет эксперт, который будет смотреть на клетки крови. Если эксперт случайно пропустит ячейку с малярией, которая прогнозируется как отсутствие малярии, последствия могут быть опасными. Это означает, что мы должны быть осторожны, когда мы классифицируем «отсутствие малярии».

Наш подход заключался в установлении порога достоверности. Мы рассмотрели достоверность прогноза и определили, достаточно ли уверен алгоритм в своем результате. Если это было не точно, мы маркировали это как малярию.

После применения этой стратегии мы получили такой результат:

Ложноотрицательные результаты сократились вдвое. По-видимому, многие истинно отрицательные результаты (правильно предсказывающие «отсутствие малярии») теперь предсказываются ошибочно, потому что алгоритм не был достаточно убедительным. Несмотря на то, что наша точность упала до 92,2%, эта стратегия сделала модель более приспособленной к этой проблеме.

Итак, в заключение, мы использовали машинное обучение для обнаружения малярии в клетках крови. Создание сверточной нейронной сети дало нам точность 94,3 %, но многие зараженные клетки были помечены как не инфицированные (что называется ложноотрицательными). Нам нужно уменьшить вероятность того, что малярию не классифицируют, когда это действительно малярия. Установив порог, мы вдвое снизили ложноотрицательные результаты.

Процесс создания алгоритма машинного обучения может занять некоторое время. Иногда специалисты по данным забывают контекст и цель, которую они пытаются достичь. Несмотря на то, что наша точность составила 94,3%, мы настроили модель так, чтобы она была менее точной, но более подходящей для этой задачи.

Эй, читатель! Я рад, что ты остался до конца. Если вам понравился этот пост и вас интересуют другие, подпишитесь на информационный бюллетень Tau Omega. Вы будете уведомлены, когда опубликуют что-то новое. Зарегистрируйтесь здесь: eepurl.com/gvOBvb