Инструменты Python для анализа последовательной РНК одиночной клетки

«Мы уже знаем физические законы, которые управляют всем, с чем мы сталкиваемся в повседневной жизни… Это дань тому, как далеко мы продвинулись… что теперь нужны огромные машины и много денег, чтобы провести эксперимент, результаты которого мы не можем предсказать». - Стивен Хокинг

R NA-seq - это революционная и мощная методика транскриптомики, которая облегчает изучение экспрессии генов за счет доступности и масштаба технологии секвенирования следующего поколения (NGS). В одноклеточном РНК-секвенировании (scRNA-seq) мы выводим последовательность РНК на следующий уровень, увеличивая масштаб до одной ячейки.

А задавались ли вы когда-нибудь вопросом, как из одноклеточной зиготы развивается организм с разными типами клеток и системами органов? Секрет - это дифференциальная (пространственно-временная) экспрессия генов - хотя у нас более 25 000 генов, не все из них включены в каждой клетке и постоянно. Таким образом, мы можем использовать scRNA-seq для количественной оценки различий в составе РНК между разными типами клеток и временных рамок для изучения взаимосвязей между клеточными линиями во время развития.

Экспрессия G ена - это строго регулируемый процесс, контролируемый основными регуляторными генами. Например, ген Pax6 является главным регулятором развития глаз. Если вы экспрессируете этот ген эктопически - в месте, отличном от ткани глаза - например, в ноге, вы увидите развитие глаз на ноге мухи! Пока не волнуйтесь; это ткани глаза без функциональной нервной связи - пока что это очень украшение.

T scRNA-seq позволяет ученым исследовать механизмы дифференцировки клеток, раскрывать регуляторные взаимосвязи, влияние лекарств, опухоль против нормы, эффект мутаций и формирование паттерна при разрешении отдельных клеток. Эта высокопроизводительная технология привела к рождению различных проектов атласов экспрессии генов, таких как Атлас клеток мыши, Атлас мозга стареющих дрозофил, Карта мозга Аллена, Атлас соевых бобов, Атлас клеток человека, Рак. Атлас генома »и др.

А Хокинг отметил, что в настоящее время, чтобы глубже погрузиться в простейшие системы, нам нужны огромные вычислительные мощности, и это хорошо, потому что теперь мы можем. Общедоступные геномные репозитории по всему миру заполнены петабайтами данных, и мы почти не прикоснулись к ним. Цель состоит в том, чтобы использовать эти данные, чтобы расшифровать сложные генетические взаимодействия и нарисовать целостную картину живой системы. Возможно, однажды в этот день можно будет сделать выращенные в лаборатории органы - сердце, почки, поджелудочную железу или все, что вы можете придумать, - и мы сможем попрощаться с отторжением трансплантата и списками ожидания трансплантата!

А с другими высокопроизводительными экспериментальными процессами, RNAseq также сталкивается с многочисленными проблемами, такими как экспериментальные вариации, качество образцов, систематические ошибки и другие мешающие факторы. Извлечение информации требует тщательного статистического анализа. Большинство инструментов анализа scRNA-seq входит в R, но вот несколько из них, заслуживающих внимания любителей Python.

Читатель геномных файлов

Пиражи:
Работа с большими геномными файлами обычно требует написания аргументов командной строки, подобных приведенному ниже.

perl -ne 'if ($_ =~ /(gene_id\s\"ENSG\w+\")/){print "$1\n"}' $RNA_REF_GTF | sort | uniq | wc -l

Pyranges - это удобный инструмент, который может преобразовывать различные форматы геномных файлов в удобный фрейм данных pandas без использования grep, awk или Perl. Это означает, что вы можете с легкостью выполнять все свои необычные работы по науке о геномных данных, используя мощные библиотеки Python. Это интуитивно понятно и требует всего лишь строчки кода! Проверить это.

Контроль качества

Scrublet (S одно- C ell R emover of Do ublet s):

Scrublet - это инструмент для идентификации мультиплетных артефактов, возникающих во время RNAseq. Секвенсоры нового поколения способны секвенировать миллионы операций чтения за один прогон; поэтому обычно смешивают несколько образцов перед секвенированием (мультиплексированием) для повышения эффективности и снижения затрат. Во время подготовки образца каждый образец получает уникальный штрих-код (небольшой фрагмент ДНК, лигируемый с одним концом ДНК образца). Процесс штрих-кодирования часто может приводить к множественным артефактам, когда две клетки получают один и тот же штрих-код, что приводит к химерным популяциям. Scrublet использует алгоритм k-NN для отображения популяций ячеек с целью выявления артефактов.
GitHub

RSeQC (Контроль качества RNA-Seq)

Создает показатели контроля качества для данных RNA-Seq с помощью RSeQC.

GitHub

Иерархическая кластеризация

Иерархическая кластеризация - один из широко используемых методов кластеризации данных RNAseq. Мы можем разделить иерархическую кластеризацию на две категории. a) Разделительная кластеризация, при которой алгоритм рекурсивно делит кластеры на все меньшие и меньшие кластеры, пока не достигнет уровня отдельной ячейки. б) Агломеративная кластеризация - это противоположность делительной кластеризации, когда отдельные ячейки объединяются в кластеры нисходящим образом.

BackSPIN

BackSPIN - это метод бикластеризации, который использует разделяющую иерархическую кластеризацию и точки сортировки по окрестностям (SPIN) для кластеризации генов и клеток.

GitHub

Кластеризация на основе плотности

Алгоритмы кластеризации на основе плотности могут разбивать пространство выборки на плотные кластеры. Такие алгоритмы, как DBSCAN, могут эффективно обнаруживать выбросы и, как таковые, являются отличным инструментом для определения редких типов клеток.

GiniClust

Под капотом GiniClust - это реализация DBSCAN, подходящая для обнаружения редких кластеров ячеек и выбросов.

GitHub

Анализ данных

SCANPY: анализ отдельных клеток в Python

Интегрированный рабочий процесс «все в одном» с методами предварительной обработки, визуализации, кластеризации, псевдовременного вывода и вывода траектории, тестирования дифференциальной экспрессии и моделирования сетей регуляции генов.

GitHub

Я увлечен применением машинного обучения для решения задач в области биологии. Надеюсь, вы узнали кое-что сегодня. Поговорим с тобой в следующий раз!

Инструменты Python для анализа последовательной РНК одиночной клетки

Читатель геномных файлов

Контроль качества

Иерархическая кластеризация

Кластеризация на основе плотности

Анализ данных

Вопросы по теме