TL; DR

Буквально вчера Deepmind опубликовал блог, в котором рассказывается о том, как их ИИ AlphaFold2 с потрясающей точностью предсказал белковые структуры в двухлетнем испытании CASP в этом году. В сообществе специалистов по вычислительной технике было много разговоров о разветвлениях их работы.

Если вы заметили шумиху и вам интересно узнать о сворачивании белков, читайте дальше ... Предполагается, что этот пост отражает мотивацию и сложность проблемы для аудитории, в некотором роде знакомой с STEM.

По большому счету, этот пост близок моему сердцу, поскольку сворачивание белков - это обширная проблема, в которой я проводил свои магистерские исследования. Это первая тема исследования, над которой я работал, и поэтому люблю говорить!

Быстрое введение

Белки необходимы для жизни, поскольку они буквально ДЕЛАЮТ вещи в теле. Они переносят молекулы, помогают расшифровывать ДНК и переваривать пищу. Фактически, они находятся на функциональном конце центральной догмы биологии (т.е. ДНК- ›РНК-› Белок; ДНК транслируется в РНК, которая транскрибируется в белки).

Шумиха вокруг строений

Если вы помните среднюю школу, они складываются в сложные (четвертичные) структуры, которые очень важны для их функции. Структура имеет значение, поскольку многое из того, что делают белки как молекулы среднего размера, зависит от их механической стыковки с другими молекулами (возврат к координированной химии!). Они существуют в режиме размеров, который представляет собой увлекательную серую область, где важны как механические, так и химические эффекты!

Обычные лекарства используют этот факт. Например, они будут пытаться конкурировать с целевым белком, тем самым предотвращая его действие (именно так работает ваш кофе!), Или прикрепляться к белку в другом месте и изменять его структуру, делая его бесполезным.

Ошибка в наших конструкциях

Теперь белки производятся в рибосомах с огромной скоростью и с огромной точностью. Но химическое оборудование не лишено безрассудства. Поэтому иногда он ошибается. Последовательность остается той же, но, как бусинка струн, которую можно расположить так или иначе, она может быть неправильно сложена. Неправильно свернутые белки, как вы можете догадаться, дают сбой! Для таких заболеваний, как болезнь Альцгеймера, неправильное свертывание одного белка и его агрегация в головном мозге является одним из основных кандидатов на роль первопричины.

Это просто означает, что изучение трехмерной структуры белков имеет большое значение. Также важно изучить путь, по которому белки складываются таким образом.

Методы измерения

Чтобы увидеть такие маленькие частицы, обычно используют ЯМР и XRAY-кристаллографию. Оба эти метода не соответствуют:

  1. Возможность фиксировать всю динамику белка. т.е. ПОСМОТРЕТЬ, как происходит процесс сворачивания; поскольку сроки слишком короткие.
  2. Предоставление модели, которая может помочь предсказать трехмерную структуру белка с учетом его последовательности.
  3. Обеспечение понимания других «метастабильных» конформаций, которые белок может принимать из-за случайных сил.

NB: ЯМР способен улавливать динамику белков технически. Я не слишком знаком с недостатками ЯМР в растворе. Если у вас есть вопросы, я с радостью направлю вас к моим друзьям из Национального центра ЯМР TIFR в Хайдарабаде, которые помогут ответить на вопросы.

Эти измерения важны, потому что они могут помочь нам понять, ПОЧЕМУ белок неправильно свернут, а также как мутировавший белок может выглядеть свернутым и, таким образом, вести себя!

Войдите, компьютеры!

Поскольку экспериментальные методы не дают ответа на эти вопросы, мы обращаемся к вычислительным методам. То, что сделано, на самом деле невероятно увлекательно!

Мы моделируем все атомы, известные в белке, как крошечные сферические массы, и моделируем силы между ними, включая электрохимические связи, ядерное отталкивание и слабые силы, такие как силы Ван-дер-Вааля. Затем мы по существу решаем второе уравнение движения Ньютона (YEP, уравнение из 9-го класса: s_t = u_t + 0,5 * a * t², хотя и с другой алгебраической формулировкой, для каждого из атомов, чтобы предсказать свою траекторию во времени.

Теперь, если вы использовали это уравнение для изучения подброшенного в воздух мяча и предсказания его траектории, вы бы захотели решить это уравнение для миллисекундных интервалов, чтобы «увидеть», как мяч взлетает, а затем возвращается вниз в кадрах. Если бы вы сделали второй интервал, снимки, которые вы могли бы спрогнозировать, были бы слишком далеко друг от друга.

Точно так же для атомов, поскольку вы хотите зафиксировать наименьшее релевантное движение, вы решаете интервалы в 2 фемтосекунды, то есть временную шкалу, в которой молекулярные связи перемещаются за счет энергии тепла комнатной температуры. Все это может казаться хорошо, но это не так! Если бы вы использовали идеальную модель, чтобы она предсказывала реальную вещь, вы все равно моделировали бы молекулу в чистом вакууме. Однако в организме все это существует в водной среде. А в воде свойства меняются из-за дипольного и кинетического взаимодействия воды с системой.

Итак, как вы уже догадались, модель состоит из десятков тысяч молекул воды, расположенных в повторяющемся кубе, так что (в идеале) смоделированная система имитирует то, что молекула будет чувствовать внутри живой системы.

Итак, у нас есть сотни тысяч частиц с определенными для них парными силами, которые тоже не одного вида. По ним мы прогнозируем их положение на 2 фемтосекунды позже. Прохладный. Но за сколько шагов мы должны это увидеть? Что ж, интересующие события, такие как сворачивание, происходят в масштабе времени от микросекунд до миллисекунд. Это означает, что вам нужно будет выполнить 10¹⁰ итераций этой системы, чтобы увидеть происходящие значимые события.

Проклятие размерности

Этот метод моделирования и моделирования траекторий называется Молекулярная динамика.

К настоящему времени станет очевидно, что количество вычислительных мощностей, требуемых для этого моделирования, настолько велико, что исследователи полагаются на высокораспределенные вычисления для получения любой полезной информации. Многие лаборатории используют доступ к суперкомпьютерам, в то время как такие компании, как D.E.Shaw Research, создали специальное оборудование под названием Антон прямо в центре Манхэттена, чтобы моделировать их молекулы.

Лаборатория Виджея Панде (A16Z) из Стэнфорда применила краудфандинговый подход в проекте Folding at Home, чтобы позволить пользователям предоставлять свои дополнительные вычислительные мощности для участия в складывании белков из дома.

Теоретические обходные пути

Однако существуют и другие области, в которых эта проблема формализована таким образом, чтобы уменьшить вычислительные требования. Проблема наблюдения за редкими событиями, такими как сворачивание, может быть формализована с помощью статистической механики как проблема выборки из высокоразмерного распределения вероятностей, где мы не знаем всего распределения, но у нас есть генератор, который может генерировать новый случайный (почти) рисовать. Моделирование генерирует эти состояния. Есть способы, которые вы можете использовать, чтобы заставить этот генератор генерировать более редкие образцы, скажем, увеличивая тепло в системе, чтобы заставить молекулы вибрировать быстрее.

Другой важный способ, которым люди подходят к этой проблеме, - рассматривать ее с точки зрения уменьшения размерности, поскольку большая часть внутреннего движения молекулы на самом деле не имеет значения, и истинная динамика системы происходит в более низких измерениях, которые фиксируют истинные переходы. Эти более низкие размеры могут быть временами химическими, как двугранные углы на пептидных связях двух аминокислот.

Еще в IIIT подход, над которым я работал со своим советником доктором Прабхакаром Бхималапурамом, пытался использовать несколько реплик одной и той же системы с отталкивающей силой между ними, чтобы заставить их выбирать расходящиеся области вероятностного ландшафта. Вот ссылка, если вы хотите узнать больше.

Теперь идет ИИ.

ИИ может помочь решить проблему разными способами:

  1. Помогите определить более низкие измерения для моделирования и понимания системы
  2. Прогнозируйте редкие события с помощью смоделированной системы
  3. Непосредственно предсказывать свернутые состояния

Третий метод - это то, что сделала Deepmind AlphaFold2. Это сложная модель, которая рассматривает молекулярную структуру как пространственный граф, а затем обучается с использованием ~ 170 000 общедоступных белковых структур. Используя это, они предсказали структуры в задаче CASP14 с невероятной и удивительной точностью. В их собственном блоге содержатся подробности обо всех их невероятных результатах и ​​ссылки на их предыдущую статью.

Перспектива

Deepmind удалось достичь с помощью вычислительной магии, чего мы наблюдаем за природой в мгновение ока. Конечно, это банальный и непроверяемый взгляд на функционирование Вселенной. Однако реальные последствия огромны. Если это правда, что мы знаем первые принципы, которые управляют Вселенной, и у нас есть такие методы, как ярлыки, чтобы делать прогнозы о том, что природа сделала бы, учитывая эти первые принципы, у нас есть полный набор инструментов! С этими двумя вы можете изучать молекулы с удивительной детализацией. Это не только открывает возможности для понимания нюансов того, что уже существует, но и дает огромный импульс синтетической биологии.

Мы могли бы предсказать структуру дефектных белков на основе мутаций кодирующих их генов. При этом расчеты свободной энергии (из режима МД) могут предоставить нам огромные возможности для прогнозирования их поведения в организмах и прогнозирования мишеней для лекарств.

Мы можем перейти в режим лечения большими молекулами. С помощью этого инструмента мы сможем разработать синтетические белки, предсказать, как они складываются, и использовать их в качестве кандидатов для всех видов лекарств в организме!

Как обычно, наша способность предсказывать будущее сильно ограничена!

Первоначально опубликовано на https://abhirathb.com 29 ноября 2020 г.