1. Частичное машинное обучение с учетом продукта на библиотеках с кодировкой ДНК (arXiv)

Автор: Полина Биндер, Меган Лоулер, ЛаШадрик Грейди, Нил Карлсон, Сумуду Лилананда, Светлана Белянская, Джо Франклин, Николас Тилманс, Анри Палаччи

Аннотация:библиотеки, кодируемые ДНК (DEL), используются для быстрого крупномасштабного скрининга малых молекул в отношении белка-мишени. Эти комбинаторные библиотеки создаются с помощью нескольких циклов химии и лигирования ДНК, в результате чего получаются большие наборы молекул с ДНК-метками. Было показано, что обучение моделей машинного обучения на данных DEL эффективно для прогнозирования интересующих молекул, отличных от молекул в исходном DEL. Подходы к прогнозированию химических свойств с помощью машинного обучения основаны на предположении, что интересующее свойство связано с одной химической структурой. В контексте библиотек, кодируемых ДНК, это эквивалентно предположению, что каждая химическая реакция полностью дает желаемый продукт. Однако на практике при многостадийном химическом синтезе иногда образуются неполные молекулы. Таким образом, каждая уникальная метка ДНК в DEL соответствует набору возможных молекул. Здесь мы используем данные о выходе реакции для перечисления набора возможных молекул, соответствующих данной метке ДНК. В этой статье показано, что обучение пользовательской GNN на этом более богатом наборе данных повышает точность и производительность обобщения.

2. Квантовое машинное обучение корректирует классические силовые поля: растяжение пар оснований ДНК в явном растворителе (arXiv)

Автор: Джошуа Т. Берриман, Амирхоссейн Тагава, Флориан Мазур, Александр Ткатченко

Аннотация:Чтобы повысить точность моделирования молекулярной динамики, классические силовые поля дополняются методом машинного обучения на основе ядра, обученным энергии квантово-механических фрагментов. В качестве примера приложения обобщается поверхность потенциальной энергии для небольшого дуплекса ДНК с учетом явной сольватации и дальнодействующего электронного обмена — корреляционных эффектов. Изучение скорректированной потенциальной энергии в зависимости от растяжения показывает, что ведущие классические модели ДНК обладают чрезмерной жесткостью по отношению к растяжению. Это несоответствие оказывается общим для нескольких силовых полей. Квантовая поправка находится в качественном согласии с экспериментальной термодинамикой для более крупных двойных спиралей ДНК, обеспечивая возможное объяснение общего и давнего несоответствия между экспериментами по растяжению одиночных молекул и классическими расчетами растяжения ДНК. Новый набор данных квантовых расчетов и связанный с ним метод модифицированной молекулярной динамики ядра (KMMD) должны быть полезны в биомолекулярном моделировании. KMMD доступен как часть программного обеспечения для моделирования AMBER22.

3. Анализ гибридизации ДНК с помощью машинного обучения (arXiv)

Автор: Вэйцзюнь Чжу

Выдержка:В вычислениях ДНК невозможно решить, является ли конкретная гибридизация между сложными молекулами ДНК эффективной или нет в течение приемлемого времени. Чтобы решить эту распространенную проблему, мы представляем новый метод, основанный на технике машинного обучения. Во-первых, набор образцов используется для обучения алгоритма Boosted Tree (BT) и получается соответствующая модель. Во-вторых, эта модель используется для прогнозирования результатов классификации молекулярных гибридизаций. Эксперименты показывают, что средняя точность нового метода составляет более 94,2%, а его средняя эффективность более чем в 90839 раз выше, чем у существующего метода. Эти результаты показывают, что новый метод может быстро и точно определить биологическую эффективность молекулярной гибридизации для данной конструкции ДНК.

4.Секвенирование ДНК с помощью квантовой механики и машинного обучения (arXiv)

Автор: Генри Юэнь, Фуюки Шимодзё, Кевин Дж. Чжан, Кен-ичи Номура, Раджив К. Калия, Аитиро Накано, Прия Вашишта

Аннотация: Быстрое секвенирование генома человека является необходимым условием для геномной медицины, где болезни будут предотвращаться за счет упреждающего лечения. Квантово-механическое туннелирование через одноцепочечную ДНК в твердотельной нанопоре было предложено для быстрого секвенирования ДНК, но, к сожалению, сам по себе туннельный ток не может различить четыре нуклеотида из-за больших флуктуаций молекулярной конформации и растворителя. Здесь мы предлагаем подход машинного обучения, применяемый к туннельной вольт-амперной характеристике (ВАХ) для эффективного различения четырех нуклеотидов. Сначала мы объединяем анализ основных компонентов (PCA) и кластеризацию нечетких c-средних (FCM), чтобы изучить «отпечатки пальцев» электронной плотности состояний (DOS) четырех нуклеотидов, которые можно получить из данных I-V. Затем мы применяем скрытую марковскую модель и алгоритм Витерби для упорядочивания временных рядов данных DOS (т. е. для решения проблемы упорядочивания). Численные эксперименты показывают, что подход PCA-FCM может классифицировать немаркированные данные DOS с точностью 91%. Кроме того, обнаружено, что классификация устойчива к умеренным уровням шума, т. е. точность 70% сохраняется при отношении сигнал/шум 26 дБ. Подход PCA-FCM-Viterbi обеспечивает 4-кратное увеличение точности для задачи секвенирования по сравнению с одним только PCA. В сочетании с последними достижениями в области нанотехнологий этот метод машинного обучения может проложить путь к долгожданному быстрому и недорогому секвенатору генома.