Использование машинного обучения для оптимизации липидных наночастиц для мРНК-вакцин

Интернетом сегодня пользуются пять миллиардовлюдей.

Тем не менее, на Земле больше людей, привитых от COVID-19 (68,2 %), чем людей в Интернете («63,5 %).

И в вакцинах Pfizer, и в вакцинах Moderna используется технология информационной РНК (мРНК) для репликации спайкового белка SARS-CoV-2 и тренировки иммунной системы.

Однако мРНК деликатна.

Наши ферменты разрушают мРНК до того, как она попадет в наши клетки — сама по себе она не сможет помочь нашей иммунной системе против вируса.

Так как же мы решили эту проблему?

Подожди. Что такое мРНК?

[Я знаю о мРНК. Перейти к липидным наночастицам.]

Прежде чем ответить на этот вопрос, давайте поговорим о нуклеиновых кислотах. Двумя основными типами являются дезоксирибонуклеиновая кислота (ДНК) и рибонуклеиновая кислота (РНК). ("источник").

Нуклеиновые кислоты — это полимеры, состоящие из мономеров, называемых нуклеотидами, — подумайте, здание (полимер), состоящее из четырех типов повторяющихся кирпичиков (мономеров).

Мы определяем 5 типов строительных блоков по их азотсодержащим основаниям: аденин (А), гуанин (Г), цитозин (Ц), тимин (Т) и урацил (У).

А и G — пурины (содержат 2 кольца), а С, Т и U — пиримидины (содержат 1 кольцо). В ДНК нет U, а в РНК нет T. Примечание: азотистое основание является частью нуклеотида, но не единственным компонентом.

Но что такое есть нуклеотиды?

Каждый нуклеотид состоит из трех частей:

  1. 5-углеродный сахар — рибоза для нуклеотидов в РНК, дезоксирибоза для нуклеотидов в ДНК) (источник
  2. азотистое основание
  3. одна или несколько фосфатных групп —когда PO₄³⁻ является частью углеродсодержащего атома, это называется фосфатной группой) (источник)

Молекула сахара находится в центре, азотистое основание присоединяется к одному из его атомов углерода, как и фосфатная группа (группы).

Что такого особенного в ДНК и РНК?

С функциональной точки зрения ДНК хранит генетическую информацию, а РНК содержит инструкции по синтезу белка.

Структурно ДНК состоит из двух цепей в виде двойной спирали, а РНК состоит из одной цепи. У них разные молекулы сахара, а РНК заменяет азотистое основание тимина в ДНК на урацил.

Существует четыре основных типа РНК: информационная РНК (мРНК), рибосомальная РНК (рРНК), транспортная РНК (тРНК) и регуляторные РНК.

Давайте сосредоточимся на мРНК.

Наконец. Что такое информационная РНК?

Давайте представим мать и сын, которые пекут пирог.

Давайте также представим, что сын не умеет готовить, но он хорошо передает инструкции из кулинарной книги. Сын берет рецепт и передает информацию маме, которая активно готовит каждую часть пирога.

Поваренная книга — это ДНК, мама — это рибосома, пирог — это белок, а сын — это информационная РНК.

Этот процесс включает транскрипцию(ДНК → мРНК)и трансляцию(мРНК → белок). Когда клетке необходимо произвести белок, ген, кодирующий белок, «включается» [поясните, пожалуйста], и фермент (белок, ускоряющий химические реакции), называемый РНК-полимеразой, копирует последовательность ДНК, формируя мРНК. прядь.

Поскольку нуклеотиды несимметричны, мы должны различать два конца нитей нуклеиновой кислоты. Если вы заметили метки от 1’ до 5’ на молекуле сахара на нуклеотидной диаграмме, они указывали бы на направленность нуклеиновой кислоты.

Цепочка начинается с 5'-фосфатной группы первого нуклеотида и заканчивается 3'-гидроксильной группой последнего нуклеотида. Мы считаем 3’-гидроксильную группу концевой, потому что РНК-полимераза присоединяется только к 3’-концу цепи. ("источник")

После того, как РНК-полимераза отделяется от цепи, фермент, называемый поли-А-полимеразой, добавляет поли-А-хвост (цепь адениновых нуклеотидов, соединенных друг с другом), чтобы закрыть 3'-конец цепи. Число варьируется в зависимости от разных РНК, но один шиповидный белок SARS-CoV-2 содержит 110 нуклеотидов, что предотвращает деградацию РНК при экспорте из ядра в цитоплазму. Когда начинается транскрипция, 5'-конец также закрывается модифицированным гуаниновым нуклеотидом, чтобы защитить его от ферментов, разрушающих его.

Во время трансляции мРНК взаимодействует с рибосомой. Рибосома использует информацию, содержащуюся в мРНК, для создания белка из аминокислот.

[3D-визуализация мРНК в действии]

Итак, как она используется в мРНК-вакцинах… таких как вакцины против COVID-19?

В отличие от большинства, вакцины с информационной РНК не содержат мертвых, ослабленных вирусов или фрагментов вирусов.

Помните, как сын и мама пекли пирог? Давайте представим и дочь. Рецепт яблочного пирога она знает наизусть — узнала об этом из внешних источников. Дочь дает маме инструкции, как приготовить яблочный пирог без поваренной книги (ДНК). В этом случае дочерняя часть — это мРНК из вакцины, а яблочный пирог — это шиповидный белок, который реплицирует наше тело и который обнаружен в вирусе SARS-CoV-2. Поскольку мРНК не нужно транскрибировать что-либо из наших генов, она не проникает в ядро ​​и не взаимодействует с ДНК.

Рибосомы создают антиген шиповидного белка (чужеродное вещество, которое атакует наша иммунная система), и клетка выводит антиген на свою мембрану. Это стимулирует тип белых кровяных телец, называемых цитотоксическими Т-клетками, которые убивают «зараженные» клетки. В-клетки, другой тип лейкоцитов, идентифицируют эти антигены и создают антитела для их нейтрализации — когда вирус присутствует, антитела связываются с шиповидными белками и деактивируют его.

В обоих случаях ваше тело производит клетки памяти, которые существуют намного дольше, чем мРНК и спайковый белок. Они активируют Т-клетки и В-клетки в организме, если проникает вирус, создавая иммунитет к вирусу, не заражая ваш организм. ("источник")

Это похоже на прохождение пробного теста перед выпускным экзаменом по математике — мы понимаем, на что похож тест и на что следует обращать внимание, чтобы не было последствий плохой сдачи теста.

Звучит здорово, но что, если организм уничтожит мРНК перед попаданием в клетки?

Проблема деградации

В отличие от нитей, вырабатываемых нашим телом, синтетическая мРНК сталкивается с дополнительной проблемой: проникнуть в клетки до того, как может начаться синтез белка.

Даже с 5’-кэпом и поли-А-хвостом мРНК хрупка, и ферменты в нашем организме разрушают ее, прежде чем она сможет проникнуть в клетки.

Другая проблема заключается в том, что нити мРНК большие, полярные и отрицательно заряженные и не могут пройти через липидный бислой без посторонней помощи.

Липидные наночастицы

Ученые обнаружили, что вакцина может доставлять мРНК в клетку, упаковывая ее в то же вещество, что и клеточная мембрана: в жир.

Капли жира, липидные наночастицы, обвивают мРНК, как коробку для доставки. Когда он благополучно попадает внутрь клетки, белки могут транслировать сообщение мРНК в белки, реплицирующие спайковый белок вируса SARS-CoV-2. Теперь иммунная система получает подготовку для борьбы с вирусом. (крутое видео ЛНП)

МРНК-вакцины на основе LNP обычно содержат четыре типа липидов: холестерин, дистеароилфосфатидилхолин (DSPC), липид полиэтиленгликоля (PEG) и ионизируемый липид. Вот что делает каждый из них:

  • Холестерин: способствует образованию ЛНЧ, регулируя гибкость липидов во время смешивания.
  • DSPC (вспомогательный липид): помогает структуре LNP, межфазному натяжению и высвобождению мРНК.
  • ПЭГ-липид: влияет на стабильность, размер и эффективность LNP.
  • Ионизируемый липид: связывается с мРНК, взаимодействует с эндосомальной мембраной и отвечает за высвобождение мРНК.

Ионизируемые липиды являются наиболее распространенным и важным компонентом. Традиционно ионизируемые липиды проверяют путем создания множества липидов и тестирования их эффективности in vivo.

Однако современные экспериментальные методы скрининга требуют больших затрат, времени и материалов.

Кратко о машинном обучении и прогнозировании рецептур

Машинное обучение (ML) — это ветвь искусственного интеллекта, которая позволяет компьютерам изучать знания без явного программирования.

Мы можем использовать машинное обучение для определения взаимосвязи между входными и выходными параметрами для прогнозирования различных наборов данных, включая составы лекарств.

Предыдущие исследования применяли ML для прогнозирования систем доставки лекарств, таких как нанокристаллы, твердая дисперсия, комплекс циклодекстрина и самоэмульгирующиеся системы доставки лекарств (SEDDS).

Итак… как насчет создания модели машинного обучения для прогнозирования составов LNP для мРНК-вакцин?

Давайте проследим за исследованием, в котором для построения модели прогнозирования используется алгоритм lightGBM. ("источник")

ML присоединяется к группе mRNA Party

Сбор данных

В исследовании используются определенные параметры для контроля результатов. Модель берет данные из 65 публикаций по следующим критериям:

  1. Протестированные титры антител. Титры — это тип анализа крови, определяющий наличие и уровень антител (титр) в крови. В данном случае это были титры иммуноглобина G (IgG) или титры ингибирования гемагглютинации (HAI).
  2. Состав LNP ионизируемых липидов, DSPC, холестерина и PEG-DMG
  3. мРНК, кодирующая один антиген
  4. Антиген изучался более чем в одном исследовании.
  5. Субъектам сделано не более двух прививок
  6. Время тестирования было в пределах одного года после первоначальной вакцинации.

Было три типа входных параметров:

  • Логические данные (присвоенные «1» или «0»): функционируют ли последовательности мРНК как самоамплифицирующиеся, содержащие псевдоуридин и подвергающиеся оптимизации кодонов.
  • Многокатегориальные переменные: тип антигенного белка, тип колпачка, тип субъекта, популяция или штамм и путь инъекции.
  • Числовые переменные… все остальное.

Окончательный набор данных содержал липидные наночастицы с семью видами ионизируемых липидов.

Структурное представление ионизируемых липидов

Отпечатки пальцев расширенной связности (ECFP) представляют собой структурную характеристику ионизируемых липидов. Это битовая строка из «1» и «0» — каждый бит соответствует набору химических субструктур — «1» = содержит, «0» = не содержит.

Разделение данных

Набор данных делится на два набора: один для обучения моделей (260 точек данных) и один для проверки наилучшей модели (75 точек данных).

Критерии оценки

Мы используем эти четыре значения для определения ошибок между реальными метками и прогнозами и оценки производительности модели:

  1. Средняя абсолютная ошибка (MAE)
  2. Среднеквадратическая ошибка (MSE)
  3. Среднеквадратическая ошибка (RMSE)
  4. Коэффициент детерминации (R²)

Построение модели с помощью LightGBM

В модели прогнозирования используется машина повышения градиента света (lightGBM), структура повышения градиента, основанная на алгоритме дерева решений.

В этом случае модель предсказывает титр концентрации мРНК вакцины, иммунологические показатели.

Во-первых… что такое дерево решений?

Деревья решений

Дерево решений использует дополнительные вопросы для разделения и классификации данных. Вот пример простого дерева решений:

Проблема с деревьями решений заключается в их склонности к переоснащению. Переоснащение происходит, когда модель слишком близко подходит к тренировочному набору и не может обобщить важные закономерности.

Один из способов уменьшить ошибку переобучения — использовать случайный лес.

Случайные леса

Случайные леса объединяют множество деревьев решений для повышения точности и производительности. Каждое дерево в случайном лесу имеет свой прогноз, и класс с наибольшим количеством голосов или средним значением становится прогнозом модели.

Случайные лесаиспользуют метод бэггинга для объединения множества деревьев решений и создания ансамбля.

И… что такое бэгинг?

Упаковка

Бэггинг (или начальная агрегация) включает случайную выборку деревьев решений из набора данных. Вместо того, чтобы брать все, каждое дерево берет часть данных. Отдельные деревья принимают решения на основе выбора точек данных и прогнозируют результаты исключительно на основе этих точек.

Деревья обучаются на разных данных в каждом случайном лесу и используют различные функции для принятия решений. Вариант обеспечивает буфер для деревьев, сводя к минимуму ошибки и неправильные предсказания.

Процесс упаковки использует только около двух третей данных, поэтому оставшуюся треть можно использовать в качестве тестового набора.

Случайные леса хороши тем, что они рандомизируют построение деревьев для получения различных прогнозов.

Однако алгоритм должен строить и оценивать каждое дерево решений независимо, что затрудняет интерпретацию случайных лесов и замедляет их построение.

Чтобы решить эту проблему, альтернативой случайным лесам является повышение градиента.

Градиентные деревья решений

Как и случайные леса, деревья решений с градиентным усилением (GBDT) также объединяют деревья решений для повышения точности прогнозирования. Вместо использования мешков GBDT используют метод бустинга для соединения деревьев.

Повышение

Повышение сочетает алгоритмы обучения для получения сильного ученика из ряда слабых учеников.

Слабые ученики — это модели, которые работают немного лучше, чем случайные предположения, но сами по себе не очень хороши (например, регрессия или неглубокие деревья решений). Сильные ученики — это модели, обладающие сколь угодно хорошей точностью.

В алгоритмах GBDT слабыми учениками являются деревья решений.

Каждое дерево пытается минимизировать ошибки предыдущего дерева. В то время как отдельные деревья плохо обучаются, последовательное добавление множества деревьев делает повышение эффективности и точности модели. Вместо начальной выборки дерево соответствует модифицированной версии исходного набора данных.

Результаты

Как оказалось, модель lightGBM показала хорошие результаты.

MAE и RMSE составляли 0,2 и 0,3 log10 единиц для набора для обучения и проверки, что соответствует ошибке, обычно наблюдаемой в экспериментах. R² выше 0,9, показывая, что эта модель охватывает основные факторы, влияющие на изменчивость тигра IgG.

Хотя составы ионизируемых липидов и ЛНЧ для вакцин против COVID-19 уже определены, результаты демонстрируют возможности машинного обучения для прогнозирования составов лекарств.

Он становится все более популярным: если вы введете запрос «разработка рецептур лекарств, направленных на машинное обучение», список научных работ не остановится — и они тоже недавние.