Когда я был ребенком, я сводил своих родителей и учителей с ума своей необходимостью знать, почему все так, как есть. Это было особенно тяжело для моего бедного учителя химии, постоянно задаваемого вопросами. Хорошо, цианат калия токсичен, но почему? Кроме того, почему нитрилы обычно не особенно едкие, а изонитрилы пахнут каким-то жутким ужасом, который мог бы придумать химически талантливый Лавкрафт? И может кто-нибудь объяснить, почему метиловые соединения металлов (метилкадмий, метилртуть, диметилцинк, вы называете это) почти без исключения ужасны на многих уровнях (взрывоопасность, токсичность, зловоние, общая неприятность в обращении, разрушение количество произведенной стеклянной посуды на грамм синтезированного и т. д.)?

К большому огорчению моей очень и очень терпеливой жены, я не сильно изменился в этом отношении. Вот почему меня по-прежнему очень интересует, почему все так, как есть. Когда мы строим прогностическую модель, хорошо и хорошо, что мы можем посоветовать нашему клиенту, какая машина выйдет из строя в следующий раз, где бурить нефть, или какая область подвержена более высокому риску малярии и, следовательно, стоит сосредоточить усилия на лечении. на. Однако все чаще клиенты начинают присоединяться ко мне в моем стремлении узнать почему, и мы так же стремимся удовлетворить их любопытство, как я задавал бесконечные вопросы в химии доктора Фулеки в 10-м классе. класс.

Следующий пример будет довольно нетрадиционным. Мы построим модель, которая попытается определить, является ли небольшая молекула токсичной. Но это еще не все - нас также будет интересовать, почему он токсичен. Какие группы с наибольшей вероятностью сделают его токсичным, а какие предполагают, что он может быть безвредным? Как ни странно, мы будем заниматься машинным обучением на том, чего вы, вероятно, не видели часто, - на молекулах. В частности, мы будем рассматривать малые молекулы, то есть все, что меньше 900 дальтон. Это включает в себя множество современных фармацевтических препаратов, а также токсины и другие неприятные вещества, а также исключает крупные макромолекулы, такие как белки. Поговорим о химии, но это не сообщение в блоге о химиноформатике, так что даже если все, что вы помните из химии в средней школе, - это запах и случайные взрывы, оставайтесь со мной.

Наши исходные данные для этого - Tox21, программа токсикологии Национального института здоровья. Tox21 создал уникальный набор данных, объединив тысячи химических структур с их токсичностью - их методология в основном основана на воздействии предполагаемых токсинов на культуры клеток, которые относительно репрезентативны для человеческого тела, и посмотреть, что произойдет. Мы будем использовать DeepChem, фантастический пакет для фармацевтической химии и разработки лекарств (среди прочего), и RDKit для создания функций.

Генерация признаков

Как и во всех проектах машинного обучения с учителем, мы должны начать это с определения функций, которые нужно изучить, и их создания.

Есть много способов представить молекулу, некоторые из которых более подходят для наших целей, чем другие. Например, итоговая формула (которая сообщает, сколько атомов каждого элемента присутствует в одной молекуле) полезна, но когда дело доходит до биологии, дьявол кроется в деталях или, скорее, в структуре. Известно, что кокаин и гиосцин (скополамин) имеют одну и ту же общую формулу, но, хотя один является печально известным стимулятором, другой - депрессантом-делириантом.

Так что нам тоже нужно что-то, отражающее структуру. Существует несколько таких систем, например InChI, генерирующая чрезмерно длинные и хаотичные строки, и SMILES, которые мы собираемся использовать, потому что с ней немного проще работать. SMILES, что-то вроде химического наименования, ищет самую длинную основу, прерывает любые циклы, а затем описывает ответвления. Слева показан отработанный пример ацетилсалициловой кислоты, более известной как аспирин.

На этом этапе нам нужен способ создания характеристик из молекулярных структур, представленных строками SMILES - в конце концов, то, что нам нужно, - это отношения между структурными мотивами, такими как ацильная группа (концевая часть свисает наверх left 'бензольного кольца, состоящего из атомов, обозначенных 1, 2 и 3). Для этого нам сначала нужно разделить наши молекулы на характерные части. В вычислительной химии это называется молекулярный отпечаток, и существует большое количество различных подходов к этой проблеме. В этом случае мы будем использовать технику под названием Морган или круговой отпечаток пальца. Учитывая радиус (определяемый как количество связей), отпечаток пальца Моргана характеризует сами атомы (по элементам), их окрестности, их заряд, находятся ли они в кольце и различные другие химические характеристики.

Эти особенности дают нам способ описывать молекулы таким образом, чтобы мы могли не только соотносить их с токсичностью, но также позволять нам определять, какие образцы молекулы могут способствовать ее токсичности. Как? В этом волшебство LIME.

Когда жизнь дает вам ЛИМУ…

LIME (Local Interpretable Model Agnostic Explanations) - это не зависящий от модели способ заглянуть во внутреннюю работу классификатора или регрессора, впервые описанный Ribeiro et al. (2016) . Основная идея довольно тривиальна: понять черный ящик между входами и выходами, настроить входы и посмотреть, что происходит с выходами. Они называются возмущениями, и идея состоит в том, чтобы соотнести определенные возмущения с конкретными результатами.

Подумайте о разработке модели, оптимизирующей ваш стейк: качество мяса (от стейка с нижней полки до аргентинской говядины глубокой заморозки), температура, состав маринада и дни маринования, гриль или сковорода и т. Д. Теоретически, конечно, вы можете попробовать каждую перестановку этих параметров, но на практике вы просто будете есть стейк каждую ночь в течение года и записывать параметры. В конце концов, у вас будет достаточно точек данных для построения модели.

Теперь предположим, что вы вводите данные о совершенно новой конфигурации качества мяса, температуры и т. Д. В свою модель, любопытно, даст ли это приятный кусок первоклассной говядины или некоторую неудобоваримую кожу для обуви. Вы получаете результат ... но вам все еще интересно - почему? Какой параметр больше всего повлиял на решение модели?

То, что делает LIME, лучше всего описать как создание возмущений - он запускает множество относительно похожих конфигураций приготовления стейков через модель и пытается изолировать, какие из факторов имеют наибольшее влияние на ожидаемый показатель качества стейка. Более того, он может разбить их по эффектам: конечно, эта говядина качественная (предполагает хороший результат), но она была пережарена, и гриль действительно не подходит для нее (что предполагает худший результат). Вы можете довольно точно увидеть, какие факторы указывали на то, каким образом вы оцениваете результат приготовления стейка.

Теперь посмотрим, как это будет работать с молекулами.

Построение модели токсичности

Как уже упоминалось, мы будем использовать набор данных Tox21 и DeepChem для создания многозадачного классификатора на основе полностью подключенной сети (FCN) (подробнее о многозадачных классификаторах см. Здесь). Наши данные содержат двенадцать задач или анализов - каждый из них представляет собой индивидуальные пути токсичности, ключевые биомолекулы, с помощью которых молекула может проявлять токсичность. К ним относятся, например, сигнальный путь рецептора эстрогена (ER) альфа, и химические вещества, которые действуют как агонисты (активаторы) пути передачи сигнала рецептора эстрогена (ER), могут нарушать работу эндокринной системы. Точно так же анализ антагонизма антигена клеточной опухоли p53 может предполагать, что тестируемое соединение, вероятно, ингибирует процесс, с помощью которого p53 защищает клетки от повреждения ДНК при повреждении (путем индукции репарации ДНК, остановки клеточного цикла или запуска гибели клеток, известный как апоптоз). Набор данных Tox21 общедоступен и содержит данные примерно по 10 000 химикатов. Мы рассмотрим сокращенную выборку из 7 084 соединений, в которой есть данные для всех двенадцати задач, разделенных на обучающий набор (n = 6264) и тестовый набор (n = 784).

Используя fcnet.MultitaskClassifier DeepChem (избавляя нас от ручного создания многозадачного классификатора), мы собираемся изучать токсичность каждой задачи, то есть каждого анализа каждой молекулы, одновременно. Всего после 20 итераций мы получили среднюю ROC AUC 0,757, причем ROC AUC была самой высокой для MMP задачи (разрушители митохондриального мембранного потенциала) на уровне 0,862 и самой низкой для задачи рецептора эстрогена, всего 0,650. . Это приемлемый результат, особенно с учетом того, что ROC AUC помогает нам определить, насколько надежным является конкретное суждение о токсичности соединения в зависимости от того, какой анализ показал токсичность.

Давайте наугад выберем молекулу, которую наша модель считает токсичной. Поскольку задача MMP была наиболее точной, давайте выберем такую, в которой модель предполагает механизм разрушения MMP для токсичности. Я наугад выбрал эту красоту под названием галлат эпигаллокатехина, который в изобилии присутствует в чае и лекарстве от гипертонии, но также может быть токсичным в больших дозах - действительно, в 2018 году EFSA предупредило, что большие дозы могут вызвать повреждение печени. Это, почти наверняка, является результатом митохондриальной токсичности, предложенной анализом MMP. Но почему? Какие части этой красивой молекулы вызывают разрушение гепатоцитов?

Выжимание извести

К счастью, LIME может сказать нам очень хорошо (и, что немного жутковато, какие его части делают его менее токсичным). Давайте рассмотрим пять наиболее значимых отпечатков пальцев, то есть черты Моргана, которые, согласно LIME, наиболее сильно связаны либо с токсичностью, либо с ее отсутствием. Напомним, что LIME вызывает локальные возмущения, то есть небольшие изменения входных данных, чтобы увидеть, как это влияет на результат, тем самым давая нам возможность заглянуть в саму модель. Модель предполагает, что отпечатки пальцев 578 и 352, встречающиеся в отсутствие отпечатка пальца 456, убедительно указывают на токсичность (96%), в то время как отсутствие отпечатков пальцев 420 и 175 предполагает нетоксичность (или, говоря наоборот, молекула будет даже более вероятно, что он будет токсичным, если он включит эти отпечатки пальцев).

До сих пор мы говорили об отпечатках пальцев абстрактно. Посмотрим, что на самом деле имеется в виду. Мы можем перевернуть хэши функций Моргана (или отпечатков пальцев), чтобы выявить, как выглядят эти отпечатки пальцев.

Конечно, действительно интересно не столько то, что делает одно соединение (вероятно) токсичным, сколько то, что общие отпечатки пальцев имеют все молекулы, которые проявляют токсичность, скажем, через путь рецептора эстрогена (ER). Если бы мы не знали, как выглядит рецептор эстрогена (что мы делаем), и, следовательно, не знали бы, где находятся его сайты связывания, но все же должны были бы выяснить, что лиганд (молекула, которая взаимодействует с белком) должно выглядеть так, мы могли бы посмотреть, какие общие отпечатки пальцев имеют молекулы, которые являются проверенными агонистами пути ER. Затем это дало бы полезное первое приближение мотивов, которые могут быть коррелированы с активацией пути ER.

Вывод

Появление количественного высокопроизводительного скрининга (qHTS), при котором тысячи молекул могут быть легко проверены на токсичность или агонизм на линиях клеток человека, что позволяет нам ответить на важные вопросы: почему - благодаря чему структурный мотив - одно химическое вещество токсично, а другое нет? Помимо скрининга на токсичность, заглядывание внутрь таких моделей может помочь нам лучше понять, почему молекулы делают то, что они делают в биологическом контексте, открывая новые горизонты от открытия лекарств до создания синтетических ароматизаторов с лучшим вкусом. Возможности безграничны, как человеческое воображение, которое, по сути, сводится к тому, чтобы постоянно спрашивать почему?.

Даже если учителей это сильно раздражает.