Цитирование: Моджтаба Бахрами и др., Глубокая экстракция одноклеточных транскриптомов с помощью генеративно-состязательной сети, Биоинформатика, Том 37, Выпуск 10, май 2021 г., Страницы 1345–1351, [Ссылка]

Введение

Секвенирование одноклеточной РНК (scRNA-seq) произвело революцию в клеточной биологии, предоставив детальное представление о поведении отдельных клеток. Бахрами и др. в своей статье 2021 года представили уникальный подход к декодированию данных scRNA-seq с использованием глубокого обучения, особенно генеративно-состязательных сетей (GAN). В этой статье подробно рассматривается их методология, от подготовки данных до окончательной архитектуры модели.

1. Подготовка данных

Задание по пакетным эффектам:

Данные одноклеточного секвенирования РНК сопряжены с проблемой пакетных эффектов, которые представляют собой вариации, обусловленные не биологическими различиями, а техническими несоответствиями. Эти несоответствия могут возникнуть из-за разных лабораторий, технических специалистов, оборудования или даже дней экспериментов.

Решение:

Чтобы обеспечить целостность данных, Бахрами и др. предложил продвинутый этап предварительной обработки. Это включает в себя нормализацию данных и коррекцию этих групповых эффектов, чтобы гарантировать, что последующий анализ не будет предвзятым. Прежде чем подавать данные в scGAN, крайне важно иметь эти данные в форме, свободной от технических артефактов.

2. Суть дела: архитектура scGAN

а) Генеративно-состязательные сети (GAN):

Для тех, кто не знаком, GAN состоят из двух сетей — генератора и дискриминатора. В то время как Генератор пытается создать данные, Дискриминатор стремится различать реальные и сгенерированные данные. Они находятся в постоянной конкуренции, совершенствуя свои стратегии, что делает GAN высокоэффективными в решении подобных задач.

б) Моделирование данных с помощью scGAN:

scGAN предназначен для моделирования вероятности подсчета необработанных scRNA-seq. Он делает это путем проецирования каждой ячейки в скрытое пространство или, проще говоря, преобразования сложных данных ячейки в более простую сжатую форму без потери ее основных функций. Это скрытое пространство или скрытое внедрение представляет основную информацию каждой ячейки.

c) Минимизация пакетного эффекта:

Что отличает scGAN, так это его двойная роль. При формировании этих скрытых вложений сеть также обеспечивает минимальную корреляцию между этими вложениями и метками пакетов. Это инновационный шаг в обеспечении того, чтобы данные ячейки оставались чистыми и не подвергались влиянию внешних условий партии.

3. Модельное обучение

Обучение GAN, особенно такого специализированного, как scGAN, требует тщательной калибровки. Бахрами и др. использовал двустороннюю стратегию:

а) Обучение генератора:

Генератор был обучен создавать реалистичные данные клеток, пытаясь обмануть Дискриминатор, заставив его поверить в то, что то, что он производит, было реальным. Это было достигнуто с помощью комбинации функций потерь, в первую очередь с упором на разницу между сгенерированными и реальными данными ячеек и корреляцию скрытых вложений с метками пакетов.

б) Обучение дискриминатора:

Дискриминатор был обучен правильно идентифицировать реальные и сгенерированные данные. Показателем успеха было то, насколько часто он правильно идентифицировал подлинные данные ячейки и данные, сгенерированные Генератором.

Это перетягивание каната продолжалось до тех пор, пока Генератор не выдал данные, которые Дискриминатор едва мог отличить от реальных данных, гарантируя, что скрытые внедрения были высокого качества и в значительной степени свободны от пакетных эффектов.

4. Оценка и результаты

После обучения Бахрами и др. применили свой scGAN к трем общедоступным наборам данных scRNA-seq. Результаты были весьма показательными. scGAN показал заметное улучшение в формировании кластеров известных типов клеток. Кроме того, он был способен точно определить гены, связанные с большим депрессивным расстройством, продемонстрировав свой потенциал в целевых задачах идентификации генов.

Заключение

Инновационный подход Моджтабы Бахрами и его команды предлагает потенциальное решение некоторых давних проблем в анализе данных scRNA-seq. Объединив глубокое обучение с клеточной биологией, команда наметила курс, которому могут следовать многие. Хотя результаты обнадеживают, более широкое внедрение их метода будет зависеть от дальнейших испытаний, проверок и, возможно, усовершенствований. Тем не менее, обещание, которое оно несет, неоспоримо.