Обучение компьютеров языку химии с помощью масс-спектрометрии: часть 1

Том Батлер, Дэвид Хили, Август Аллен и Висва Коллуру, Enveda Biosciences

Основная проблема в поиске натуральных лекарств: найти иголки в стоге сена природы.

Натуральные продукты уникальны тем, что они одновременно являются наиболее проверенным, но неиспользованным источником новых лекарств. В зависимости от точного определения, где-то от ~ 30% (внутренний анализ, самый консервативный) до ~ 60% малых молекул, одобренных FDA к 2020 году, обязаны своим происхождением молекулам природы. Тем не менее, когда сложные химические образцы, собранные из природных источников, подвергаются лучшим аналитическим методам для воспроизведения известных структур, содержащихся в образце, менее 10% возвращают совпадение. Это подразумевает существование большого, неиспользованного запаса химии, полученного за миллиарды лет эволюции — как ограниченного биологией (виды молекул, которые могут поместиться в биосинтетические белковые карманы), так и ограниченного для биологии (производство этих специфических соединений увеличило шансы на большую приспособленность для видов, в которых они производятся, предположительно, за счет взаимодействия с белковыми карманами других форм жизни в окружающей среде). Более того, последние оценки общего количества известных на сегодняшний день натуральных продуктов составляют всего лишь сотни тысяч по сравнению с миллионами соединений, которые служили основой кампаний высокопроизводительного скрининга (HTS) в традиционных фармацевтических открытиях за последние пару лет. десятилетия. Эти относительные числа свидетельствуют о большей переводимости натуральных продуктов. На самом деле существует несколько независимых анализов, подтверждающих их большую переводимость (элегантно резюмировано нашим членом SAB, Райаном Шенви). Например, химическое пространство, определяемое высоким Fsp3, высоким стереохимическим содержанием, высоким содержанием кислорода, высоким содержанием циклов и низкой ароматичностью (свойствами, обогащенными натуральными продуктами), коррелировало с ускоренным прогрессированием в клинических испытаниях.

Так почему же тогда библиотеки натуральных продуктов потеряли популярность при открытии лекарств? Ответ заключается в том, что эти библиотеки привели к большому количеству недетерминированных ошибок в применении к современным открытиям лекарств. Помимо несовместимости анализа с новыми методами молекулярного скрининга, такими как SPR, эти трудности можно разделить на три основные категории:

  1. Невозможность быстро определить приоритеты свинцовых структур [«Химическая аннотация»]
  2. Невозможность уверенно идентифицировать биологически активную молекулу в смеси [«Биологическая аннотация»]
  3. Отсутствие доступа к достаточному количеству материалов для проведения доклинических, клинических и коммерческих разработок [«Доступ к материалам»]

В Enveda мы создали технологическую платформу, которая решает каждую из этих трех основных проблем, чтобы добиться невероятного количества попаданий в сложную биологию — исторически не поддающиеся лечению мишени или новые методы, такие как молекулярные клеи. Сегодня мы рады приоткрыть завесу над частью нашей работы по решению проблемы № 1 — химической аннотации. Почти два года назад мы задались вопросом: Как мы можем расставить приоритеты среди самых интересных, привлекательных и поддающихся обработке новых химических веществ без изоляции методом проб и ошибок с помощью дорогостоящей ЯМР-спектроскопии?

Открытие метаболомики с помощью масс-спектрометрии может масштабировать открытие лекарств из натуральных продуктов

Мы решили, что идеальный ответ (для временных масштабов запуска) заключается в новых способах рассмотрения данных, полученных с помощью аналитических инструментов, а не в изобретении новой аналитической техники. Мы обратились к метаболомике на основе тандемной масс-спектрометрии (ЖХ-МС/МС), которая может (i) брать смесь соединений, извлеченных из природного источника, до 1000 молекул за раз, (ii) разделять их с помощью хроматографии, и (iii) пропускают их через тандемный или двухступенчатый масс-спектрометр. На первом этапе (MS1) измеряется масса отдельных соединений и их содержание. На втором этапе (MS2) соединения разбиваются на части и для каждой части измеряется ее масса и количество. Масс-спектрометрия имеет огромные преимущества для сбора данных по сравнению с ЯМР:

  1. Отдельные соединения не нужно изолировать для анализа (распараллеливание)
  2. Тысячи соединений могут быть проанализированы за считанные минуты (производительность)
  3. Низкая переменная стоимость за образец (стоимость)

Более того, оказалось, что оборудование для масс-спектрометрии значительно опережает любое сопутствующее программное обеспечение, генерируя миллионы точек данных за эксперимент, которые в основном анализируются специальными программными пакетами, предназначенными для одноразового анализа данных, хранящихся локально. Фактически, Питер Доррестейн, научный соучредитель Enveda, помог противостоять этой тенденции и внедрить одну из первых цифровых инфраструктур для хранения и поиска необработанных данных масс-спектрометрии (см. здесь, здесь и здесь для некоторых примеров). . Мы были настроены на прорыв, но нам помог еще один важный фактор: данные метаболомики идеально подходили для машинного обучения. Это позволило нам изучить, можем ли мы выполнить больше, чем сопоставление библиотеки с данными масс-спектрометрии.

Трансформеры идеально подходят для метаболомики

Как элегантно объяснил Дэвид в своем блоге в прошлом году, машинное обучение и метаболомика — идеальное сочетание. Это связано с тем, что (если цитировать прямо из блога Дэвида) масс-спектрометрия была принципиально проблемой представления данных: можете ли вы представить наборы масс и содержаний (например, спектры MS2) таким образом, чтобы сохранить структурное сходство или идентифицировать структурные фрагменты или обозначить структурный класс? ?

В спектрах MS2 отсутствует прямая последовательная или пространственная зависимость между пиками. Мы поняли, что это делает их плохо подходящими для традиционного глубокого обучения с помощью сверточных или рекуррентных нейронных сетей (CNN или RNN). С другой стороны, преобразователи, архитектура нейронной сети, первоначально введенная для захвата лингвистической структуры целых отрывков текста, могут быть идеальными для спектров МС/МС. Их уровни самоконтроля позволили бы изучать сложные зависимости, основанные только на идентичности фрагментов, без предположений о местонахождении или упорядочении, неподходящих для данных МС/МС. Трансформаторы используются всего несколько лет, но недавнее превращение трансформаторов в товар сделало эти мощные модели гораздо более доступными.

Применение трансформаторов для предсказания свойств в новом химическом пространстве работает исключительно хорошо.

Используя преобразователи, мы создали MS2Prop: модель машинного обучения, которая напрямую предсказывает химические свойства на основе данных масс-спектрометрии для новых соединений. Другими словами, модель предсказывает химически важные свойства соединений для открытия лекарств непосредственно из масс-спектров, не полагаясь на реальную или предсказанную структуру. Таким образом, мы можем генерировать прогнозы независимо от того, находится ли соединение в существующей базе данных. Производительность MS2Prop имеет средний R2 70 %, что означает, что его прогнозы объясняют около 70 % вариаций свойств от структуры к структуре (см. препринт со списком всех 10 свойств) для новых соединений. Это отличается от R2, равного 22 %, для стандартного метода поиска ближайшего спектрального совпадения в базе данных и расчета свойств этой молекулы или R2, равного 9 %, с использованием CSI:FingerID, общедоступного инструмента, который сочетает в себе вычисление дерева фрагментации и машинное обучение. Мы показываем прирост производительности по ключевым свойствам, таким как синтетическая доступность (решение проблемы № 3 выше), доля атомов углерода sp3 или количественная оценка сходства с лекарством (QED).

Впервые MS2Prop позволяет уверенно принимать решения о новом химическом пространстве непосредственно на основе данных масс-спектрометрии.

Мы индустриализируем открытие лекарств из натуральных продуктов с помощью MS2Prop.

MS2Prop не только значительно точнее. Кроме того, это на несколько порядков быстрее (в среднем в 12 000 раз), чем на современном уровне техники. MS2Prop требуется всего ~ 2 миллисекунды, чтобы сгенерировать прогноз на основе спектра MS2. Эффективность работы позволяет нам:

  1. Создавайте прогнозы в соответствии с пропускной способностью нашей платформы (анализируйте спектры MS2, связанные с десятками тысяч соединений ежедневно) и
  2. Изучите неаннотированное природное химическое пространство в сотнях миллионов спектров на предмет сходства с наркотиками.

Мы уже используем MS2Prop для определения приоритетности интересных молекул, прежде чем инвестировать в выделение и ЯМР-анализ любого отдельного соединения. По мере того, как мы создаем растущую коллекцию экстрактов натуральных продуктов в наших лабораториях и аннотируем их функции в ряде интересных биологических анализов, эта возможность является ключом к тому, чтобы наша платформа доставляла молекулы, которые однажды станут лекарствами. Без MS2Prop мы (или, точнее, наши медицинские химики) были бы разочарованы в подавляющем большинстве случаев, когда мы выделяли молекулу из экстракта. Хотя мы оставим наши результаты по библиотекам растений или даже одному растению для другого блога (и статьи), вы можете получить некоторое представление по тому факту, что только 0,637% из 500 миллионов общедоступных спектров соответствовали критериям КЭД>0,8. Миллионы иголок, но в огромном стоге сена.

Давайте немного уменьшим масштаб. Мы представили около 210 тыс. неаннотированных спектров в унифицированном многообразном приближении и проекции (UMAP) и раскрасили их на основе числовой оценки для количественной оценки сходства лекарств (свойство QED из MS2Prop), выделив препараты с одобрением FDA. Мы определили регионы со многими одобренными FDA соединениями (оранжевый/красный, регионы A и B), обозначая очень успешное химическое пространство, покрытое недобытыми натуральными продуктами. Мы также наблюдали несколько областей (регионы C-E), которые были редко заняты лекарствами, одобренными FDA, но одинаково хорошо оценивались по сходству с лекарствами, демонстрируя еще дополнительное высокопотенциальное химическое пространство, занимаемое натуральными продуктами. При наложении аннотаций к источникам образцов и других данных такого рода анализы говорят нам, находимся ли мы на правильном пути в нашей охоте за новыми лекарствами.

Мы создаем крупнейшие в мире наборы метаболомных данных для обучения наших алгоритмов следующего поколения.

Мы невероятно гордимся своей работой над MS2Prop, но это только начало. Мы знаем, что модель хороша настолько, насколько хороши ее данные. Чтобы сохранить наше преимущество на переднем крае метаболомики, мы создаем крупнейший набор данных по метаболомике, специально созданный для машинного обучения. Мы начали с фитохимических веществ, которые исторически являются одними из самых богатых источников терапевтических препаратов. Со временем наш поиск новых лекарств, которые можно принести в клинику, будет поставлять огромные данные в наши алгоритмы машинного обучения, которые, в свою очередь, обеспечат лучшее руководство для наших программ поиска лекарств. Стратегии активного обучения помогут нам идентифицировать и охарактеризовать масс-спектры, идентичность которых, скорее всего, улучшит наши модели, которые мы затем сможем активно охарактеризовать, пока наши модели не будут хорошо работать во всем фитохимическом пространстве. И все природное химическое пространство.Alea iacta est!

PS: Если вы хотите создать передовые инструменты машинного обучения для метаболомики и химии, найти новые пути для целей, которые другие считали слишком сложными, или превратить конвейер уникальных молекул в лекарства, свяжитесь!