В сообщении на этой неделе я расскажу некоторую информацию, основанную на моем понимании будущего DeepLearning в эпоху одноклеточной омики. Это относится к проекту Human Cell Atlas, который недавно получил финансирование Seed Network от Научной инициативы Чана Цукерберга, и, как я вижу, это изменит курс понимания биологии человека. Начать с:

Что такое инициатива "Атлас клеток человека"?

Насколько мне известно, это одна из наиболее всеобъемлющих инициатив, которые были предприняты различными ведущими лабораториями и институтами, чтобы воплотить мечту о создании справочной карты человеческих клеток. Это поможет нам понять основы жизненных систем человека, начиная с большой карты, которая может быть разбита на гранулярную единичную единицу клетки. Таким образом, он направлен на решение проблемы сложности человеческой системы или тканей путем построения карты с множеством ссылок по одной клетке за раз. Это позволит нам получить всестороннее представление о здоровье человека посредством базового понимания биологии развития и болезней. Обещание такого понимания уже может помочь нам соединить точки того, как различные клетки в пространстве более высоких измерений перекрестно общаются друг с другом, чтобы построить систему тканей человека, тем самым обеспечивая более глубокое понимание здоровья, начала и развития болезни. Более подробную информацию можно найти здесь и в статье Атлас клеток человека.

Как мне увидеть это зрение через линзу?

Видение, которого хочет достичь HCA, основано на решении некоторых из самых серьезных проблем, стоящих перед нами в эпоху одноклеточной омики. Это не только одна из самых многообещающих революций нашего времени, но и открывает множество сложностей, подобных ящику Пандоры. Задача состоит не только в решении биологической сложности человека, но и в решении широкого спектра аспектов технологий, вычислительной инфраструктуры, необходимой не только для проведения комплексного анализа данных, но и для обработки огромного количества данных. Такая обработка данных требует эффективных средств хранения, конфиденциальности, безопасности и совместного использования. Это также означает, что необходим массовый контроль качества (QC) и обеспечение качества (QA) с точки зрения точной реализации таких достижений. Одним из достижений, которые мы станем свидетелями с помощью HCA, станет разработка удивительных вычислительных методов или алгоритмов для обработки, опроса, анализа и визуализации больших данных, которые генерирует одна ячейка. Это также приведет к постепенному использованию машинного обучения и глубокого обучения. Одно из моих любимых чтений в этом пространстве - это сообщение Medium под названием: Глубокое обучение для биологии одиночной клетки, опубликованное в На пути к науке о данных Николаем Осколковым . Это отличное чтение, если вы еще этого не сделали.

Вот некоторые из моих мыслей, которые я разделяю в этом посте:

  1. Этот пост представляет собой прогноз того, как эта область будет продвигаться вперед с большим объемом генерации и сбора данных: HCA уже пытается построить карту из миллиардов или триллионов клеток, которая характеризует развитие человека и биологию болезней. Это будет использовать огромное количество технологий одиночных клеток для построения тех клеточных карт, которые будут охватывать сложные вопросы ДНК, РНК, белка, наложенные на слои с данными эпигеномики, цифровой патологии через визуализацию, фенотипическими измерениями. Короче говоря, это приведет к созданию многомодальных и мультимодальных данных, чтобы связать генотип с пониманием фенотипа.
  2. В сообщении также приводится тщательная аналогия предстоящей необходимости использования алгоритмов уменьшения размеров для лучшего определения сложности / неоднородности клеток или клеточной морфологии: в биологических данных одним из многих способов понимания данных является визуализация их в 2D. Теперь с такими огромными объемами нам нужно улучшить наши алгоритмы для захвата пространственного измерения, чтобы лучше прояснить биологическую проблему, которую мы хотим решить, или, по крайней мере, обеспечить проверку нашей исходной гипотезы из первых рук. Чтобы получить больше понимания, я бы перенаправил на один из моих предыдущих постов, который проливает некоторую информацию о уменьшении размеров.
  3. Текущее сокращение размеров в формах t-SNE, UMAP скоро будет дополнено проекциями на основе глубокого обучения Autoencoder для разбивки сложности для устранения нелинейности измерений. Одним из наиболее важных аспектов уменьшения размеров является определение нелинейности экспрессии генов с помощью данных RNA-Seq для отдельных клеток. Эта нелинейность в некотором роде обращается к сложным случайным событиям, которые происходят во время процесса транскрипции. Это также представляет клеточное пространство, которое состоит из состояний клеток в многомерном измерении, чтобы охватить тонкости человеческого развития и биологии болезней. Более подробную информацию об этом представлении пространства ячеек через HCA можно найти в обзоре Криса П. Понтинга.

4. Этот пост уже дает нам некоторую информацию о наборах данных уже порядка ~ 1,3 или 2 миллиона клеток, которые были сгенерированы с помощью платформы 10x геномики. В основном это делается на мышах, но проекция HCA направлена ​​на получение таких огромных объемов данных. С такими огромными объемами данных также необходимо обращаться к этим огромным разреженным наборам данных, которые мы видим в данных с одной ячейкой. Одним из прекрасных способов устранения такой разреженности в пространстве отдельных ячеек является использование шумоподавления данных отдельных ячеек с помощью модели Deep Autoencoder, которую можно найти здесь. Автоэнкодер ранее использовался для предсказания динамики экспрессии генов в дрожжах с использованием многослойного перцептрона и автокодировщика с накоплением шумов (MLP-SAE), основанного на модели предсказания на основе регрессии. Подробнее о работе можно прочитать здесь. В настоящее время его объем будет больше реализован в прогнозировании состояний и судьбы ячеек в контексте одиночной ячейки.

5. Сообщение также обращается к растущим потребностям в вычислительной инфраструктуре и опыте, чтобы помочь разрешить постоянно растущий атлас одноклеточных данных и создать архитектурную основу. Сказав это, это может быть сделано, когда мы сможем привлечь больше компьютерных, математических, статистических специалистов, специалистов по науке о данных, эпидемиологов, чтобы они присоединились к лиге выдающихся врачей, генетиков, молекулярных биологов и биологов развития. Это поможет нам реализовать потенциал междисциплинарной биологии или биомедицины. Научная инициатива Чана Цукерберга прилагает огромные усилия в этой области. Некоторые из его новых усилий и инициатив по ускорению космического пространства можно найти здесь.

6. Средний пост Deep Learning for Single Cell также касается инноваций, которые появятся при использовании приложений машинного обучения в наборах для обучения и тестирования. Насколько я понимаю, это также поможет в понимании клеточного разнообразия как в пространстве идентификации типов клеток, так и в картировании клеточного происхождения или траектории в биологии развития и / или болезни. Два мощных и всеобъемлющих современных рабочих процесса в пространстве с одной ячейкой - это Seurat (в настоящее время версия 3, включая новые интеграционные модели и перенос этикеток через привязку) и Monocle ( в настоящее время Monocle3 из-за его последней обновленной версии).

7. Наконец, кое-что, что он касается совместимости и масштабируемости для реализации Deep Autoencoders для массивной 10X Genomics, например Набор данных RNAseq для ~ 1,3 млн клеток головного мозга мыши с использованием методов Keras и Tensor Flow. Предыдущие работы по одноклетке с использованием R, Keras и TensorFlow уже были показаны Жан Фен и Киран Р. Кэмпбелл.

Я благодарю и выражаю признательность всем авторам, чьи работы я цитировал в этой истории, поскольку они предоставили мне достаточно пищи для размышлений, чтобы начать с того, что я понял. Вот как я представляю постоянно растущую область одноклеточных и HCA, основываясь на моем обучении и понимании. Буду рад добавить дополнительную информацию для ясности, если потребуется. Я также благодарю Николая Осколкова за замечательный пост, который дал мне основу для этой статьи, чтобы копнуть глубже и объединить свои чтения.

Изменить 1: я добавил изображения, полученные из различных статей и веб-сайтов, и связал их с их источником.