В этой статье я предложил решение для раннего выявления рака с использованием двухэтапного подхода. Первым шагом является использование метода дробовика, такого как масс-спектрометрия, который мог бы собрать как можно больше химической информации, используя стандартные контрольные образцы; второй шаг - разработать надежный метод проверки химической информации и выявить образцы с подозрением на рак для дальнейших исследований. Веб-приложение было разработано, чтобы облегчить прогнозирование рака и открытие химических веществ отпечатков пальцев для диагностики рака.

Раннее выявление и лечение рака необходимы для увеличения выживаемости и качества жизни больных раком. По данным Cancer Research UK, для рака груди и рака простаты, наиболее распространенного рака у женщин и мужчин соответственно, пятилетняя выживаемость составляет почти 100 процентов, если диагностирована на стадии I или до нее, в то время как выживаемость значительно снижается до менее 30 процентов на IV этапе!

В настоящее время рак обычно не диагностируется, пока у пациентов не появятся такие симптомы, как рвота и головокружение. Однако в большинстве случаев симптомы заметны только на более поздних стадиях, и ни пациенты, ни врачи не заподозрят рак даже при появлении симптомов. Таким образом, предпочтительнее найти надежный метод проверки рака, используя стандартные контрольные образцы (например, образцы крови), и «пометить» образцы с подозрением на рак для дальнейших исследований еще до появления симптомов. .

Двухэтапный метод раннего выявления рака

Шаг 1. Метод дробовика.

Масс-спектрометрия предлагает доступное и быстрое решение для сбора как можно большего количества химической информации из слюны, крови или других образцов, которое широко применяется в фармацевтических компаниях для скрининга и тестирования лекарств.

В общем, масс-спектрометрия различает химические вещества по их весу или массе, и она имеет высокую чувствительность даже при низкой концентрации химикатов. Более того, в масс-спектрометрическом анализе обычно используются крошечные образцы (миллиграммы), на его завершение уходит несколько минут, и его можно легко сочетать с методами роботизированной подготовки образцов, что является идеальным подходом для высокопроизводительного химического скрининга и тестирования.

Однако слишком много информации означает, что трудно определить, какая масса является определяющей для диагностики рака, даже для опытных специалистов. Распространенной практикой является то, что люди предсказывают рак на основе ограниченного числа известных химических детерминант рака (или стандартов), что приводит к ошибочной классификации из-за разброса выборки.

Шаг 2. Спектральный анализ, вдохновленный наукой о данных

В сознании людей наука о данных и машинное обучение больше связаны с высокотехнологичными отраслями, такими как обработка изображений, обработка голоса и искусственный интеллект, но как они связаны с спектральным анализом? Другими словами, как преобразовать реальную проблему ранней диагностики рака в проблему машинного обучения и решить ее? Продемонстрируем этот «перевод» в следующих разделах.

Сбор данных

Дополнительные сведения можно найти на моем github в разделе 1

Для начала соберем некоторые данные масс-спектров. Данные, которые я исследую, публично доступны в Национальном институте рака (NCI). Здесь я сосредоточился на двух типах рака: рак яичников и рак простаты. Что касается рака яичников, я выбрал две группы: одна была подготовлена ​​робототехникой, а другая - вручную в соответствии со стандартным протоколом. Для рака простаты все образцы были приготовлены вручную в соответствии со стандартным протоколом. В каждой группе есть раковые и контрольные (здоровые) группы. Примерно 20 процентов образцов рака находятся на стадии I, в то время как остальные 80 процентов образцов рака находятся на стадиях II, III и IV.

Обработка данных в этом случае заключается в объединении индивидуального масс-спектра с матрицей спектров, где каждая строка представляет отдельный образец, а каждый столбец представляет индивидуальный M / Z. Все образцы помечены как рак 1 и не рак -1.

Визуализация данных

Дополнительные сведения можно найти на моем github в разделе 2

Так как же выглядят наши данные? Можно ли их легко разделить на раковые или нераковые группы? Прямо сейчас мы сталкиваемся с набором данных со значительно большими характеристиками (разными массами), чем образцы (количество масс-спектров). Это характерно для всех спектральных данных, где относительно сложно собрать большое количество образцов с помощью экспериментов, но было довольно легко получить тонны характеристик или точек данных с помощью спектрометрического анализа. Из-за большого размера наших данных (›9000 функций) невозможно просмотреть наши данные напрямую. Вместо этого мы можем спроецировать наши данные в 2D-пространство и визуализировать их. Анализ главных компонентов предоставляет нам отличные инструменты для этого, где мы можем легко видеть и знать наши данные. Здесь мы построили распределение данных с использованием первых двух основных компонентов.

Мы видим, что для образцов яичников, приготовленных с помощью роботов, и образцов простаты, образцы рака и не раковых заболеваний могут быть разумно разделены, в то время как для образцов яичников, приготовленных вручную, образцы рака и не раковых заболеваний в значительной степени перекрываются и не могут быть разделены с использованием только первого два основных компонента (более трудно предсказать рак / отсутствие рака по сравнению с роботизированной группой яичников и группой простаты).

Выбор функции

Дополнительные сведения можно найти на моем github в разделе 3.1

Мы знаем, что наши спектральные данные - это многомерные данные. Фактически, данные большой размерности не только несут проклятие высокой размерности, но также несут коррелированные и шумовые характеристики, которые могут привести к тому, что наша модель будет не соответствовать данным или будет затруднена сходимость. Поэтому нам нужно выбрать важные функции, прежде чем применять алгоритм машинного обучения.

Дерево решений - это естественный способ выбора функций. Разделение дерева основано на максимальном увеличении примеси Джини, поэтому дерево всегда разделяется в сторону более важных функций. Алгоритм случайного леса - это метод ансамбля, использующий сборку дерева и случайный выбор функций для каждого разбиения. Здесь я использовал случайный лес, чтобы выбрать наиболее важные функции. Я установил порог на 95 процентов, что означает, что я ожидал, что наиболее важные функции могут объяснить более чем 95-процентную дисперсию набора данных.

Отмечено, что в пределах 9200 признаков (M / Z) использование только 40 признаков (0,43 процента от общего числа признаков) может объяснить более чем 95-процентную дисперсию для образцов простаты, 52 признака (0,58 процента от общего числа признаков) объяснят более 95 процентов. дисперсия для образцов яичников, приготовленных с помощью роботов, а для образцов яичников, приготовленных вручную, требуется 86 признаков (0,93% от общего числа). Выбор функций значительно снизит шум и избыточные функции.

Имеют ли выбранные функции значение?

Да, это означает, что наличие отпечатков пальцев может определить рак

Дополнительную информацию можно найти на моем github в разделе 4.4

Для образцов яичников, приготовленных с помощью роботов, количество образований отпечатков пальцев между 200 и 1000 составляет 25, и один ключевой метаболит (молекулярная масса 472) рака для определения рака яичников находится в нашем важном массовом списке для прогнозирования яичников. Другими словами, я разработал инструмент для выбора возможных молекул отпечатков пальцев для диагностики рака, что имеет большое значение для новых открытий метаболизма и химических веществ, вызывающих рак. В этом случае вместо того, чтобы сосредоточиться на всех 9300 возможных молекулах, исследователи могли бы просто сосредоточиться на 52 молекулах для прогнозирования рака яичников или на 40 молекулах для прогнозирования рака простаты, что значительно повысит эффективность исследований и разработок и сэкономит средства.

Модели для прогнозирования рака

Дополнительную информацию можно найти на моем github в разделах 3.2 и 3.3

Используя выбранные функции, я применил поддерживаемую векторную машину (SVM), случайный лес (RF), K ближайших соседей (KNN) и метод ансамбля, проголосовав за прогноз рака. Параметры модели были настроены путем перекрестной проверки поиска по сетке. Производительность модели сравнивалась на основе точности прогноза, показателя AUC и показателя F1.

Замечено, что для прогнозирования рака яичников и простаты все модели машинного обучения работают хорошо. Для данных об яичниках, подготовленных роботами, случайный лес и SVM могут достичь 100-процентной точности, 1,0 AUC и 1,0 F1-Score, что делает их идеальными моделями для прогнозирования; для вручную подготовленных данных по яичникам SVM и метод ансамбля работают одинаково хорошо и достигают 95-процентной точности, 0,95 AUC и 0,96 F1-Score; для данных простаты, SVM, случайный лес и метод ансамбля могут достичь точности до 98 процентов, 0,98 AUC и 0,98 F1-Score. Однако мы не должны быть слишком уверены в наших моделях, потому что наши результаты основаны на мелкомасштабных выборках, и нам потребуются гораздо большие данные, чтобы оптимизировать наши модели и проверить производительность модели. Наши модели также должны быть гибкими, то есть они должны быть в состоянии справиться с ситуациями, когда в масс-спектре появляется больше шума, чем обычно (например,, ошибки прибора и примеси, появившиеся во время подготовки образца).

Мы видим, что SVM и ансамблевые модели схожи по точности прогноза, AUC и F1-Score, но какая из них лучше для раннего определения рака?

Дополнительные сведения можно найти на моем github в разделе 4.1

Вернемся к цели этой работы. Мы собираемся «пометить» образцы с подозрением на рак для дальнейших анализов, поэтому наша главная забота - чувствительность. Другими словами, наша модель должна максимально предсказывать рак, если он есть. Это похоже на проверку безопасности в аэропорту, где сигнализация настроена так, чтобы быть чувствительной ко всем металлическим предметам, даже к ключам и мобильным телефонам.

Если мы посмотрим на приведенную ниже матрицу неточностей, которая показывает, сколько образцов не прогнозируется как рак при наличии рака (ложноотрицательные результаты), мы хотели бы получать наши ложноотрицательные результаты как можно реже. Здесь 1 представляет рак, а -1 - не рак. Легко видеть, что модель SVM дает 0 ложноотрицательных результатов во всех трех группах, что делает SVM лучшей моделью для прогнозирования рака яичников и рака простаты, чем модель ансамбля.

Если образцы случайно перепутались, можем ли мы сказать, к какой группе он принадлежит?

Дополнительные сведения можно найти на моем github в разделе 4.3

Нередки случаи, когда люди путают образцы, особенно имея дело с большим количеством образцов. Здесь я предложил решение, как использовать инструменты машинного обучения, чтобы назначить неизвестные образцы группе. В этом наборе данных у нас есть шесть отдельных групп. Мы должны решить, к какой группе принадлежит выборка, используя мультиклассификацию. Сравнивая три модели (SVM, Random Forest и KNN), мы пришли к выводу, что SVM работает лучше всего в этой мульти-классификации с точностью до 93 процентов. Кроме того, было доказано, что наша модель может разделять образцы по полу (точность до 97%), а также образцы, подготовленные роботом и вручную (точность до 100%).

Можем ли мы создать приложение, в котором мы можем просто загрузить файл масс-спектра, и оно будет предоставлять результаты прогнозов?

да. Я создал приложение под названием Cancer Diagnosis 1.0 для достижения этой цели.

Здесь я разработал веб-приложение на основе Dash, где вы можете просто загрузить файл массового спектра, и результаты диагностики рака будут немедленно показаны. Приложение было развернуто через Heroku.

  • Загрузить файл

  • Масс-спектр будет показан в виде тепловой карты и графика, и вы можете выбрать диапазон масс.

  • Он показывает визуализацию новой выборки во всех обучающих выборках и предсказывает вероятность по четырем моделям. Вы можете выбрать разные критерии классификации: все, пол или подготовка

  • Если вы выберете конкретную группу (здесь группа яичников, подготовленная роботом), она покажет визуализацию новой выборки в обучающих выборках в этой группе и предсказывает вероятность рака / отсутствия рака по четырем моделям.

  • Он также покажет массы отпечатков пальцев в определенной группе (здесь группа яичников, подготовленная роботом), вы можете выбрать диапазон масс, чтобы отобразить интересующие массы отпечатков пальцев.

Заключение

  • SVM была выбрана как лучшая модель для прогнозирования рака яичников и простаты с высокой точностью (95–100 процентов) и нулевым процентом ложноотрицательных результатов, что делает ее идеальной для «красного флажка» образцов с подозрением на рак.
  • Была идентифицирована одна из молекул отпечатка пальца, определяющая рак яичников, что подтверждается литературными данными.
  • Приложение для диагностики рака было разработано, чтобы предлагать быстрые результаты прогнозирования рака, а также списки молекул отпечатков пальцев для диагностики рака.

Рекомендации

  • Пациентам следует попросить пройти масс-спектрометрический тест во время плановых осмотров для выявления рака.
  • Врачи должны рекомендовать пациентам пройти масс-спектрометрический тест во время плановых осмотров.
  • Страховые компании должны покрывать плату за масс-спектрометрический тест в качестве профилактического теста, чтобы побудить людей проходить плановые обследования на онкологические заболевания.