Сегодня около 60% рабочей нагрузки высокопроизводительных вычислений (HPC) выполняет задачи вычислительной химии и материаловедения. Эти начинания открывают двери для открытия новых материалов, улучшают наше понимание биологических механизмов и потенциально позволяют открывать новые лекарства.

Одним из популярных и простых способов выполнения таких вычислений является Молекулярная динамика (MD). Расчеты МД отслеживают траектории атомов в течение длительного периода времени, тем самым обеспечивая подробную физическую информацию, а также количественные данные о химической системе. Разработанный в начале 1950-х годов, этот метод с тех пор усложнил систему с увеличением вычислительной мощности, обеспечиваемой законом Мура. Все большие и большие молекулярные траектории могут быть достигнуты в течение более длительных периодов времени.

На протяжении многих лет разработки в области высокопроизводительных вычислений и вычислительной химии были переплетены. На уровне аппаратного обеспечения архитектуры HPC за последние 60 лет претерпели огромные изменения, став ответом на более крупные системные вычисления. Параллельно с этим открытие новых алгоритмов позволило еще быстрее реализовать эти модели (например, Быстрый многополюсный метод). В конце концов, потребовались определенные элементы вычислительного конвейера для ускорения некоторых аспектов этих симуляций (например, Gravity Pipe (GRAPE) или, в последнее время, Anton). Хотя основная часть вычислений сосредоточена на получении траекторий, реальное понимание может быть получено только через анализ указанных траекторий, который сам по себе может потребовать больших ресурсов.

В этом посте мы используем блок оптической обработки (OPU) LightOn для анализа траекторий МД, рассчитанных Чеспугли, Дурмазом, Стейнкеллнером и Грубером [1] в конкретном случае коронавируса, ответственного за болезнь COVID-19.

Молекулярная динамика 101

«… если бы мы назвали самое сильное предположение из всех, которое ведет к бесконечным попыткам понять жизнь, это то, что все вещи состоят из атомов и что все, что делают живые существа, можно понять. с точки зрения покачивания и покачивания атомов ».

Ричард П. Фейнман, Лекции Фейнмана по физике

Биомолекулярные системы, такие как вирусы, действительно состоят из постоянно колеблющихся атомов. Они могут принимать разные формы, называемые конформациями. Выявление переходов от одной конформации к другой представляет биологический интерес. Действительно, конформационные изменения связывают структуру биомолекулы с ее функцией в организме. Таким образом, знание этих изменений является ключевым моментом при разработке новых лекарств.

По мере того, как количество изучаемых атомов становится больше, на каждом временном шаге этих симуляций создаются большие потоки данных. В результате конформационные изменения может быть сложно идентифицировать, особенно для больших молекулярных систем, поскольку изменения иногда могут быть очень локальными. Ограничения обработки и памяти также мешают понять эти изменения, поскольку они требуют постобработки полных траекторий. Как следствие, обнаружение этих изменений является дорогостоящим и выполняется пакетно, что требует многих вычислительных ресурсов. Эта ситуация требует более гибкого онлайн-процесса.

В следующих разделах мы исследуем обнаружение конформационных изменений SARS-CoV-2 (ответственного за COVID19) в режиме онлайн с использованием OPU LightOn. Наш подход не только ускоряет обнаружение конформационных изменений по сравнению с методами, использующими ЦП, но и делает это с меньшим объемом памяти.

Образцы ландшафта свободной энергии: для чего это нужно?

МД используется для исследования конформационного пространства больших молекул, то есть всех его возможных структур. Задача состоит в выборке ландшафта свободной энергии нашей молекулы, который меняется в зависимости от изменений конформации. МД-моделирование решает законы движения Ньютона для группы из многих атомов. Поскольку все они постоянно перемещаются, их связи постоянно колеблются, а некоторые могут делать это с большой частотой. Следовательно, временной шаг Δt, используемый в решающих программах интегрирования, ограничен самой высокой частотой вибрации системы. В большинстве случаев растяжение связи углерод-водород устанавливает верхнюю границу этой частоты, тем самым требуя, чтобы шаги интегрирования Δt были порядка фемтосекунды: это 10 мкс!

В нижнем частотном диапазоне различные конформации белка - или метастабильные состояния - разделены высокоэнергетическими барьерами. В результате переходы между такими структурами являются редкими событиями, которые происходят в масштабе времени до микросекунды, а иногда и до миллисекунды. Чтобы увидеть единственное изменение в ландшафте свободной энергии, нам потенциально необходимо выполнить последовательное интегрирование уравнений Ньютона более миллиарда раз!

Чтобы решить эту проблему, химиками-теоретиками были разработаны усовершенствованные методы отбора проб, такие как метадинамика [2]. Идея, лежащая в основе этой стратегии, состоит в том, чтобы изменить потенциальную энергию молекулы, добавив дополнительный член, называемый смещением. Это смещение уменьшит энергетический барьер между конформациями, вытесняя систему из метастабильного состояния, в котором она находится. Такие алгоритмы используют коллективные переменные (CV), которые представляют собой одномерные координаты, которые, как предполагается, описывают систему в ее текущем состоянии. Эти CV позволяют «направлять» симуляцию, как показано в процедуре, показанной на рисунке 2. Добавляя смещение, мы можем вытолкнуть систему из ее «тюрьмы» за счет добавления дополнительной силы.

Карты диффузии для идентификации коллективных переменных

На этом этапе у вас может возникнуть вопрос: что это за резюме, как их найти? Обычно это могут быть физические координаты, такие как угол между определенными связями в молекулах. В таком случае их можно выбрать интуитивно. К сожалению, это не всегда так просто, особенно в очень больших системах! Было разработано несколько методов автоматического определения таких координат.

В частности, Трстанова, Леймкулер и Лельевр [3] предложили метод, основанный на алгоритме уменьшения размерности, который называется карты диффузии (DMaps). Этот алгоритм, впервые представленный Койфманом и Лафоном [4], основан на вычислении собственных значений и собственных векторов оператора диффузии на данных. В результате мы получаем семейство вложений нашего набора данных в евклидово пространство, называемое диффузионными координатами. Утверждалось, что эти координаты диффузии напрямую коррелируют с CV [3]. Довольно аккуратно!

Стратегия, предложенная в [5]. [3] выглядит следующим образом.

1. Рассматривайте пакеты с периодом времени m = 2000 как точки данных. Поскольку мы имеем дело с молекулами в трех измерениях, их количество характеристик будет N = 3 x n_ {атомы}, где n_ {атомы} - количество атомов в структуре.
2. Примените алгоритм DMaps к этим точкам.
3. Если собственные значения операторов диффузии сошлись, это означает, что система достигла метастабильного состояния.
4. Используя координаты диффузии, определите CV и используйте их для улучшения выборки (например, следуя процедуре, показанной на рисунке 1).
5. Определите конформационные изменения как изменения в спектре.

Однако использование спектра DMaps для обнаружения конформационных изменений не кажется оптимальным. Как выбрать гиперпараметры алгоритма DMaps? Как мы характеризуем изменения в спектре? Неужели нам действительно нужно увеличивать дорогостоящие вычислительные мощности для извлечения собственных значений матрицы DMaps на каждом временном шаге m, каждое из которых представляет собой стоимость O (N³)?

Ответ: вероятно, нет. Действительно, авторы работы [5]. [5] предлагают метод под названием экспоненциально взвешенное скользящее среднее без предварительного знания (NEWMA), который может решить большинство этих сложностей и дорогостоящих вычислительных проблем.

В следующем разделе мы предлагаем новую стратегию для улучшения выборки в моделировании MD, полагаясь на алгоритм NEWMA для обнаружения конформационных изменений. Чтобы продемонстрировать наш метод, мы изучаем случай вируса, ответственного за вспышку коронавируса.

NEWMA для обнаружения конформационных изменений в молекулярной динамике

11 марта 2020 года Всемирная организация здравоохранения (ВОЗ) объявила продолжающуюся коронавирусную болезнь COVID-19 пандемией. Эта инфекция вызывается вирусом коронавирус тяжелого острого респираторного синдрома 2 (SARS-CoV-2). Чтобы противостоять этой проблеме, величайшей со времен Второй мировой войны по словам Ангелы Меркель, значительная часть научного сообщества была посвящена исследованиям вируса. В частности, было проведено моделирование вируса SARS-CoV-2 для определения эффективности некоторых лекарств [1].

Мы предлагаем изучить использование метода NEWMA для обнаружения конформационных изменений. Это соответствует замене шага (5) стратегии [5]. [2] NEWMA, оставив остальные без изменений. На рисунке 4 показана эта техника.

Идея NEWMA состоит в том, чтобы вычислить статистику обнаружения как разницу между двумя скользящими средними. Затем это количество сравнивается с адаптивным порогом. Если статистика превышает указанный порог, алгоритм отмечает эту точку как точку изменения. Преимущество этого метода состоит в том, что он не требует предварительных знаний о точках изменения и может быть вычислен в режиме онлайн. Кроме того, гиперпараметры алгоритмов выбираются эвристикой, вычисляемой только на основе размера окна, то есть количества недавних выборок, которые должны сравниваться с более старыми. Более подробную информацию об алгоритме, а также об эвристике его поиска гиперпараметров можно найти в работе. [5].

Статистика обнаружения рассчитывается с использованием случайных прогнозов (RP). Эти RP можно вычислить на CPU с помощью таких методов, как Random Fourier Features (NEWMA RFF CPU) [6] или FastFood (NEWMA FF CPU) [7]. Их можно вычислить с помощью OPU LightOn (NEWMA RP OPU), так как он имеет то преимущество, что он в основном нечувствителен к количеству функций - следовательно, к количеству атомов! - нашего набора данных. OPU LightOn также имеет гораздо меньший объем памяти, поскольку не нужно сохранять случайную матрицу.

МД моделирования введены Ref. [1] вируса SARS-CoV-2 не содержат никаких оснований. То есть мы не знаем, когда именно происходят конформационные изменения. Чтобы обойти эту проблему, мы сравниваем на рис. 4 переходы, обнаруженные с помощью алгоритма NEWMA, с переходами, обнаруженными с использованием изменений в спектре операторов диффузии (DMaps). Как показано на рис. 5, результаты, полученные двумя алгоритмами, совпадают.

Используя точки изменения, обнаруженные NEWMA, мы можем сократить вычисление спектра оператора диффузии в 4 раза (см. Рис. 4). Это существенно, поскольку спектр оператора диффузии требует вычисления попарных расстояний между всеми атомами в моделировании, а также требует диагонализации этой матрицы. Поскольку траектории обычно учитывают гораздо большее количество временных рамок, этот эффект усиливается. Вычисляя координаты диффузии только в точках изменения, обнаруженных NEWMA, можно сэкономить много времени!

Таким образом, в новом конвейере вычисления MD, показанном на рисунке 4 и предложенном в этом сообщении в блоге, обнаружение на основе NEWMA может эффективно вычисляться на каждом временном шаге, в то время как более крупнозернистый алгоритм DMaps с низким разрешением может использоваться для получения координаты представление в наборе данных коллектора, когда это необходимо. Этот подход открывает путь к более быстрым глобальным исследованиям выборки, таким как метадинамика.

Где блистает OPU LightOn в этом новом вычислительном конвейере?

Наконец, мы также сравниваем производительность NEWMA с использованием различных методов, представленных выше, для вычисления случайных проекций. В дополнение к траекториям SARS-CoV-2 [1] мы протестировали NEWMA, используя дальнейшее моделирование МД молекулярных систем различных размеров, предоставленное авторами [1]. [8]. Результаты этого исследования показаны на рис. 6. Хотя ЦП NEWMA FF очень эффективен для небольших молекулярных систем, при 4000 атомах вычисления, выполняемые с использованием OPU LightOn, уже на 40% быстрее, чем методы на базе ЦП! Более крупные системы атомов должны получить больший выигрыш.

Таким образом, использование алгоритма NEWMA в тандеме с OPU LightOn является очень эффективным способом обнаружения изменения конформации для больших и очень больших молекулярных систем. В то время как самая большая система, рассматриваемая в этом сообщении в блоге, содержала 5335 атомов, некоторые системы, такие как липидные бислои, могут состоять из десятков тысяч атомов (или больше!). Для такой большой системы память станет проблемой для вычислений на базе ЦП, таких как NEWMA RFF и NEWMA FF, в то время как NEWMA, выполняемая на OPU LightOn, останется управляемой.

В будущем изучение конформационных изменений SARS-CoV-2 в комплексе с лекарствами может стать решающим для открытия лекарства.

Хотите быстро идентифицировать конформационные изменения в своем собственном молекулярном наборе данных?

Код, использованный для создания результатов этого сообщения в блоге, находится в открытом доступе здесь.

Вы можете воспроизвести наши результаты или сделать свои собственные расчеты с OPU через наше LightOn Cloud, которое будет доступно в ближайшее время. Вы можете подписаться здесь.

LightOn и LightOn Cloud поддерживают Research. Подайте заявку на участие в программе LightOn Cloud for Research на сайте LightOn Cloud.

О нас

LightOn - производитель оборудования, который разрабатывает новые оптические процессоры, которые значительно ускоряют вычисления с помощью машинного обучения. Процессоры LightOn открывают новые горизонты в вычислительной и инженерной областях, которые сталкиваются с вычислительными ограничениями. Заинтересованы в ускорении вычислений? Попробуйте наше решение в LightOn Cloud! 🌈
Пожалуйста, подпишитесь на нас в Твиттере на @LightOnIO, подпишитесь на нашу рассылку новостей и / или зарегистрируйтесь в нашей серии семинаров. Мы ведем прямую трансляцию, так что вы можете присоединиться откуда угодно. 🌍

Автор

Амели Шатлен, инженер по машинному обучению в LightOn AI Research.

Благодарности

Мы благодарим Игоря Каррона, Виктуар Луи и Якопо Поли за просмотр этого сообщения в блоге.

использованная литература

[1] Марко Чеспугли, Ведат Дурмаз, Георг Стейнкельнер и Кристиан К. Грубер. 6 симуляций молекулярной динамики модели протеазы коронавируса 2019-nCoV в комплексе с различными конформациями лопинавира (2020). DOI: 10.6084 / m9.figshare.11764158.v2

[2] Алессандро Лайо и Франческо Л. Жервазио. Метадинамика: метод моделирования редких событий и восстановления свободной энергии в биофизике, химии и материаловедении. В: Доклады о достижениях физики, 71.12, 2008 г. ISSN: 00344885. DOI: 10.1088 / 0034–4885 / 71/12/126601.

[3] Зофия Трстанова, Бен Леймкулер и Тони Лельевр. Локальные и глобальные перспективы диффузионных карт в анализе молекулярных систем, 2019. arXiv: 1901.06936.

[4] Р.Р. Койфман, С. Лафон, А.Б. Ли, М. Маджони, Б. Надлер, Ф. Уорнер и С. В. Цукер. Геометрические диффузии как инструмент гармонического анализа и определения структуры данных: карты диффузии. В: PNAS.102 (21): 7426–7431, 2005. DOI: 10.1073 / pnas.0500334102

[5] Николя Керивен, Дэмьен Гарро и Якопо Поли. NEWMA: новый метод масштабируемого определения точек изменения в режиме онлайн без использования моделей, 2018. arXiv: 1805.08061.

[6] А. Рахими и Б. Рехт. Случайные функции для крупномасштабных ядерных машин. В достижениях в системах обработки нейронной информации (НИПС), 2007.

[7] К. В. Ле, Т. Сарлос и А. Дж. Смола. Fastfood - приблизительное расширение ядра в логлинейном времени. В: Международная конференция по машинному обучению (ICML), Том 28, 2013.

[8] Крестен Линдорф-Ларсен, Стефано Пиана, Рон О. Дрор и Дэвид Э. Шоу. Как быстро сворачиваются белки. В: Наука, 28 октября 2011 г., т. 334, Issue 6055, pp. 517–520. DOI: 10.1126 / science.1208351