Изучение загрязнения морских экосистем с помощью машинного обучения (и избежание ошибок в интерпретации).

Использование CatBoost, LightGBM и SHAP для исследования окружающей среды.

Аннотация.

Первой целью этого проекта было исследование связи между концентрациями загрязняющих веществ в организме морских животных и их гистологическими данными. Вторая, более практическая цель заключалась в сравнении новых и относительно старых методов машинного обучения экологических или биохимических исследований in-silico.

Для первых подтверждена определяющая роль особенностей локального поступления контаминантов, а также размеров животных и липидного состава. С другой стороны, было высказано предположение, что новая особенность — атрофия пищеварительных канальцев — может быть связана с концентрацией загрязняющих веществ.

Для последних установлено явное преимущество новых алгоритмов (CatBoost и LightGBM) перед более традиционными (Random Forest и особенно FAMD). Основной причиной этого является относительная простота интерпретации и лучшая обработка взаимокорреляции переменных. Использование SHAP может предоставить дополнительную ценную информацию.

В целом была продемонстрирована полезность ML для экологических и биохимических исследований.

Код проекта можно найти здесь.

Введение.

Машинное обучение уже успешно используется в экологических и биохимических проектах. В этом проекте показано, что машинное обучение можно успешно использовать в сочетании этих двух дисциплин.

Несмотря на то, что большие наборы химических (и особенно экологических) данных достаточно сложно получить из-за большого количества времени и ресурсов, которые необходимо вкладывать в каждый химический анализ, они становятся все более распространенными.

Изучение таких наборов данных может дать новое представление о том, какие внешние и внутренние факторы способствуют накоплению вредных загрязнителей в морской среде. В свою очередь, это может повлиять не только на политику и руководящие принципы охраны окружающей среды, но и позволит заблаговременно выявить особо уязвимые экосистемы.

Кроме того, отношения, извлеченные in silico, могут помочь в разработке более надежных экспериментов in vivo, которые служат нормативной валидацией для новых химических веществ, которые вот-вот поступят на рынок.

Тем не менее, как и в случае со всеми конфиденциальными и специализированными данными, здесь необходимо проявлять дополнительную осторожность, чтобы избежать ошибок (чрезмерного) толкования. Кроме того, несмотря на наличие новых инструментов и алгоритмов, многие такие данные часто все еще обрабатываются довольно старыми методами, которые, хотя и кажутся надежными, иногда могут давать запутанные результаты.

Поэтому гипотезы этого проекта таковы:

1. Машинное обучение может найти новую или, по крайней мере, подтвердить текущую информацию о факторах, контролирующих накопление загрязняющих веществ в морской среде.

2. Можно внедрить новые методы машинного обучения, чтобы избежать неправильного толкования и получить более достоверные результаты.

Описание набора данных.

Одним из примеров больших наборов данных о химическом состоянии окружающей среды является Программа наблюдения за мидиями, гражданский научный проект, которым руководит Национальное управление океанических и атмосферных исследований США. Версия набора данных, используемая в этом проекте, доступна на Kaggle и немного отличается от оригинала.

Он содержит информацию о концентрациях различных загрязняющих веществ (например, ПАУ, ПХД или ПБДЭ) в различных морских матрицах (например, в отложениях или двустворчатых моллюсках) в различных прибрежных и внутренних водных экосистемах США. Также присутствует некоторая дополнительная техническая (например, квалификатор ion) и геопространственная (например, точные координаты) информация.

Отдельную часть набора данных составляют гистологические данные (например, длина, размер или аномалии роста) некоторых исследованных образцов.

Интерпретация этого набора данных представляет собой проблему по нескольким причинам. Во-первых, несмотря на то, что он кажется большим, много информации там избыточно. Например, геопространственная часть включает в себя различные описания одного и того же местоположения. Во-вторых, переменные, которые на самом делене являются избыточными, может быть трудно идентифицировать без знания предметной области (например, важно ли сохранять таксономическую информацию). В-третьих, набор данных включает множество нулевых значений для химических концентраций, которые могут возникать из-за множества факторов. Неясно, были ли они не обнаружены только потому, что были ниже предела обнаружения, и если да, то как именно этот предел был рассчитан.

Анализ и обсуждение.

Широкий спектр химических веществ в наборе данных был сведен исключительно к общей концентрации группы ПХБ в каждом образце, чтобы сохранить целостность химических свойств и уменьшить изменчивость.

Была проведена следующая очистка данных:

1. Из набора данных о загрязняющих веществах были удалены избыточные столбцы, выбранные по знанию предметной области.

2. Столбцы гистологической картины набора данных удалялись, если более половины записей были NaN или нулями.

3. Категориальный столбец «пол» набора гистологических данных был заполнен модальным значением для записей, где исходное значение было «Неизвестно». Это единственный категориальный столбец фрейма данных с пустыми записями.

4. Обе части набора данных были объединены, категориальные переменные кодированы метками.

Примечание: кодировка меток здесь предпочтительнее, поскольку почти все категориальные переменные имеют определенный порядок. Например, атрофия пищеварительных канальцев обозначает степень (тяжесть) такой атрофии. Кроме того, горячее кодирование привело бы к значительному усилению проклятия размерности.

Конечный фрейм данных представлен на рисунке 1:

Распределение непрерывных переменных показано на рисунке 2. Выбросы из набора данных не удалялись. Биологические данные отличаются высокой изменчивостью, и, вообще говоря, в природе не бывает неправильного значения. Хотя выбросы могут быть связаны с ложными измерениями или сбоями приборов, это выходит за рамки проекта.

Категориальные данные визуализированы на рисунке 3.

На этом этапе целесообразно проверить корректность целевой переменной — общей концентрации ПХБ (рис. 4).

Распределение имеет рыхлый логнормальный вид, характерный для многих естественных переменных и процессов. Таким образом, данные проходят первоначальный тест на работоспособность.

Проблема набора данных в текущей форме заключается в том, что он имеет как категориальные, так и непрерывные переменные. После кодирования категориальных переменных можно провести АПК (рис. 5), однако его полезность и содержательность сомнительны.

Вместо этого рекомендуемым методом здесь был бы Факторный анализ смешанных данных (FAMD). По определению Википедии, это факторный метод, созданный для обработки обоих типов данных: для категориальных переменных его первый шаг аналогичен МКА, а для непрерывных — МКА. После этого 2 типа переменных склеиваются вместе в единый квадрат отношения, где значения (координаты) связаны с квадратом отношения корреляции между каждой переменной и коэффициентом ее ранга.

К достоинствам метода (помимо очевидной возможности работы с различными типами данных) относится малое количество и чувствительность параметров, а также быстродействие.

Интересно, что FAMD больше известен пользователям R (и, возможно, академическому сообществу), чем пользователям Python. Тем не менее, недавняя реализация Python существует в очень полезном пакете Prince.

Запуск FAMD на наборе данных дает следующий график (рис. 6):

Похоже, что образцы можно четко разделить в координатном пространстве по их полу. Более того, это согласуется с предыдущими исследованиями in vivo , которые показывают, что самцы мидий могут нести более высокую нагрузку загрязняющих веществ, чем самки, возможно, из-за другого состава липидов.

Итак, связь найдена. Но так ли это?

Чтобы выяснить, действительно ли пол животного является наиболее важным признаком набора данных, будут использованы еще 3 алгоритма. Первым будет Случайный лес, который также будет установлен в качестве тестовой модели. Известно, что этот ансамблевый метод дает хорошие результаты на относительно небольших наборах данных, что может быть решающим преимуществом в данном случае. Вторым будет CatBoost, недавний алгоритм машинного обучения от Яндекса, а третьим — LightGBM, главный конкурент CatBoost, разработанный Microsoft. Хорошие обзоры этих алгоритмов даны здесь и здесь, но для текущего проекта достаточно сказать, что все методы имеют много общего — и самое главное сходство заключается в их способности работать с обаими непрерывные и категориальные признаки.

Метрикой для сравнения будет RMSE. Хотя MAE часто считается превосходящим RMSE, в этом проекте (и, возможно, во всех других, связанных с исследованиями окружающей среды) RMSE выбран из-за его более высокого штрафа за большие ошибки. Многие системы оценки регуляторных рисков исходят из наихудшего сценария, и поэтому выгодно избегать больших ошибок.

Производительность 3-х методов показана на рисунке 7. Очевидно, что у CatBoost был заметно лучший RMSE, чем у Random Forest и LightGBM, но в целом между ними не было большой разницы. По времени CatBoost был в 5–10 раз медленнее других алгоритмов.

Начальные значения параметров задавались согласно рекомендациям из литературы, либо от сообщества (RandomForest), либо из документации разработчиков (CatBoost и LightGBM). Затем для каждой модели был выполнен поиск по сетке с k-кратной перекрестной проверкой со значениями, снова выбранными из соответствующих документов. Для CatBoost и LightGBM это привело к увеличению производительности всего на 10%, что означает, что относительно надежные параметры для этих моделей можно найти уже с помощью человеческой интуиции.

Теперь самое интересное! На рис. 8 показана важность функции, рассчитанная алгоритмами.

Случайный лес определяет 5 наиболее важных функций: 'ceroid', 'fiscal_year_x', 'длина', 'гонадный_индекс' и 'мокрый_вес'. Согласно CatBoost, это "береговая_экологическая_область", "длина", "индекс гонад", "атрофия_пищеварительных_трубочек" и "влажный_вес"; а для LightGBM — «прибрежная_экологическая_область», «финансовый_год_x», «длина», «атрофия_пищеварительных_трубочек» и «влажный_вес».

Наиболее существенные выводы отсюда следующие: 1)Результаты, полученные CatBoost и LightGBM, аналогичны;2)Есть некоторое сходство между этими результатами и результаты Random Forest, которые, однако, игнорируют «прибрежную_экологическую_область» как важную переменную; 3) Ни один из методов не определяет «пол» как важную переменную.

Возвращаясь к знанию предметной области, результаты CatBoost и LightGBM кажутся наиболее логичными. Геопространственная изменчивость загрязнения ПХБ может быть огромной и часто очень локальной. Например, одним из самых загрязненных ПХД участков на планете был пролив Мак-Мердо в Антарктиде из-за высокой концентрации человеческой деятельности вблизи исследовательской станции. Кроме того, поскольку результаты не были нормированы на жировой основе (ПХБ очень липофильны), чем крупнее (по весу и длине) животное, тем больше загрязняющих веществ оно будет содержать.

С другой стороны, CatBoost и LightGBM также дали некоторые не столь очевидныерезультаты: почти нет исследований взаимосвязи между атрофией пищеварительных канальцев и концентрациями ПХБ, которые, тем не менее, кажутся важности.

Результаты Random Forest немного сложнее представить с точки зрения предметной области. Самая важная переменная (найденная исключительно с помощью Random Forest) — это центроид, обозначающий наличие особых агрегатов, вызванных загрязнением. Тем не менее, они являются следствием (т. е. зависимой переменной) загрязнения и фактически не объясняют его. Аналогичная ситуация происходит и со второй по значимости переменной — финансовым годом. Известно, что благодаря успешной международной экологической политике количество ПХБ в окружающей среде с течением времени уменьшается. Однако временной интервал текущего набора данных слишком мал, чтобы продемонстрировать это утвердительно. Таким образом, можно утверждать, что Random Forest не отражает возможную причинно-следственную связь, а также CatBoost или LightGBM.

Чтобы получить дополнительное подтверждение достоверности текущих результатов по сравнению с результатами, показанными FAMD, можно провести тест Манна-Уитни-Уилкоксона (MWW), чтобы выяснить, являются ли различия в концентрациях ПХБ более значительными между полами или географическими местоположениями. Меньшее значение p из теста демонстрирует более высокую вероятность того, что эти различия будут значительными. Как показано на рисунке 9, среднее значение p для местоположений более чем в 3 раза ниже, чем для полов, что означает, что первое является более важным «разделителем» данных.

В качестве заключительного шага анализа будет использован пакет SHAP для изучения результатов наиболее эффективной модели — CatBoost (рис. 10).

График позволяет понять, как каждая функция влияет на общую концентрацию ПХД. Опять же, оказывается, что это вполне согласуется со знанием предметной области. Прибрежная экологическая зона отчетливо разделяет ценности, указывая на важность геопространственных вариаций. Более высокая длина и вес животных (т.е. высокое содержание липидов) увеличивают концентрацию этих липофильных (жиролюбивых) химических соединений. Наличие атрофии канальцев также увеличивает общую нагрузку ПХБ.

Достаточно интересно, что SHAP также указывает на разницу между полами: самцы мидий страдают от более высокой нагрузки загрязняющими веществами, чем самки, как установлено исследованием in vivo. Однако вызванная полом дисперсия слишком мала, чтобы иметь значение в общем масштабе по сравнению с другими признаками.

Таким образом, SHAP явно может быть большим преимуществом для объяснения важности признаков, в том числе в науке об окружающей среде.

Заключение: проверка гипотез и дальнейшее улучшение

1. Алгоритмы машинного обучения смогли не только собрать известную информацию о взаимосвязях в наборе данных, но и предоставить новые сведения о химическом загрязнении морских экосистем.

В дальнейших исследованиях подобный анализ может быть успешно реализован и для других групп химических веществ. К ним относятся не только хорошо известные загрязнители, такие как ДДТ или ПБДЭ, но и новые соединения, которые могут оказаться опасными. Кроме того, наряду с гистологическими признаками могут быть исследованы физико-химические характеристики окружающей среды.

2. CatBooost кажется предпочтительным алгоритмом для решения текущих и подобных проблем. С увеличением размера набора данных использование LightGBM может стать выгодным. Random Forest остается хорошим инструментом для ML, но может давать менее надежные результаты с точки зрения предметной области. FAMD можно легко неправильно истолковать, поэтому его следует избегать. С другой стороны, SHAP кажется полезным инструментом исследования.

Чтобы продолжить, можно изучить дополнительные инструменты машинного обучения в текущем контексте: как старые (например, анализ избыточности (RDA)) так и новые (например, другие Boosts). Конечно, глубокое обучение (например, нейронные сети LSTM) также можно исследовать.