Автоэнкодер - это широко используемая архитектура глубокого обучения. Хорошее введение можно найти здесь. В этом посте я хотел бы поделиться своими взглядами на применение автоэнкодера в биологии.

Автоэнкодер имеет множество связей в биологии. Одним из примеров является платформа L1000, разработанная в проекте Connectivity Map [1], в котором 1000 ориентиров достаточно для восстановления 81% информации в полном транскриптоме и значительно снижает стоимость профилирования транскриптома. Эти 1000 генов можно условно рассматривать как скрытые переменные с уменьшенной размерностью. Другое прямое приложение автоэнкодера к транскриптомике [2] использовало автоэнкодер с 30 латентными переменными и обнаружило, что латентные переменные связаны с различными биологическими аспектами клетки, такими как различные пути или биологические процессы. Эти открытия проливают свет на возможное существование некоторых простых, но действенных правил, которые могут контролировать все биологические процессы. Автоэнкодер может быть хорошим способом приблизиться к этим скрытым правилам.

Было много других вариантов использования автоэнкодера в биологии. Его можно использовать как метод уменьшения размерности для неконтролируемой кластеризации и визуализации, аналогично анализу главных компонентов (PCA). Скрытые переменные из вариационного автоэнкодера (VAE), обученного на данных TCGA-последовательностей РНК пан-рака, сохранили хорошо известные взаимосвязи между типами и подтипами рака [3]. Все больше и больше приложений появляется в анализе данных последовательной РНК-последовательности одной клетки, возможно, из-за большого размера выборки в одном наборе данных. Одно раннее исследование показало, что VAE имеет более высокую производительность и более широкую совместимость по сравнению с другими методами уменьшения размеров и визуализации [4].

Однако данные последовательности РНК для одной клетки часто имеют частые случаи выпадения и существенный эффект партии. Недавние исследования были сосредоточены на модификации алгоритма автокодировщика для решения двух проблем. Например, одна уловка состоит в том, чтобы установить выходной слой как отрицательную биномиальную модель с коэффициентом отсева и определить ошибку реконструкции как вероятность распределения модели NB вместо восстановления самих входных данных [5]. В другой работе использовался рекуррентный автокодировщик для итеративного выполнения вменения нулевых записей входного слоя [6]. Чтобы исправить эффект пакетной обработки, предложенная идея состоит в том, чтобы добавить еще одну функцию потерь, чтобы гарантировать кластеризацию образцов на основе биологической релевантности, а не пакетный эффект [7]. В рукописи, опубликованной вчера (сегодня 5 октября 2019 г.), использовалась иерархическая смешанная модель Пуассона с нулевым раздутием для одновременного проведения нормализации данных, вменения исключения и пакетной коррекции эффекта [8]. Оценка модели производилась методом максимизации ожидания (EM), но автоэнкодеру должно быть легко выполнить эту работу, как было указано, что EM = VAE. Было бы интересно сравнить производительность автокодировщика с ЭМ.

Автоэнкодер также можно использовать для обучения с учителем, аналогично регрессии главных компонентов (PCR). Скрытое пространство с уменьшенным размером может сохранять большую часть биологической информации, и его становится легче контролируемого обучения, чем использование всех генов. В предыдущем посте я упомянул один пример, использованный для выявления рака груди. Еще одно преимущество состоит в том, что автоэнкодер по сути является неконтролируемым методом, поэтому хорошо аннотированные данные или хорошо спланированные эксперименты не требуются. Потенциально, мы можем эффективно изучить скрытое представление биологической системы, используя большие общедоступные атомные данные без присмотра, а затем использовать трансферное обучение (часть кодировщика) для построения конкретной контролируемой модели для небольшого набора данных. Однако два примера использования трансфертного обучения и автокодировщика не были многообещающими [9, 10]. Но аналогичное исследование с переносом обучения, основанное на матричной факторизации (а не на автокодировщике), показало хорошие результаты [11]. Авторы фактически указали, что автоэнкодер должен иметь возможность достигать аналогичных результатов. Тем не менее, для полного изучения потенциала требуется дополнительная работа.

Еще один многообещающий вариант использования - генеративная модель. Недавний «своего рода» прорыв в использовании глубокого обучения в открытии лекарств - это быстрая идентификация ингибиторов киназы DDR1 [12]. Самая важная часть рабочего процесса - это использование VAE для изучения «отображения химического пространства, набора дискретных молекулярных графов в непрерывное пространство из 50 измерений». Часть декодера с многомерным распределением Гаусса в скрытом пространстве смогла сгенерировать большое количество новых химических структур. Затем в ходе последующего обучения с подкреплением были обнаружены новые соединения с желаемыми химическими свойствами.

Другая генеративная модель, основанная на VAE, была способна предсказывать отклики на возмущение отдельных клеток in silico [13]. Гипотеза состоит в том, что эффект возмущения одинаков для всех типов ячеек в скрытом пространстве (что может быть неверно), поэтому, если для некоторых типов ячеек отсутствует эксперимент по возмущениям, просто используйте простую векторную арифметику в скрытом пространстве, чтобы получить эффект возмущения. а затем используйте часть декодера для генерации нарушенных образцов RNA-Seq для этих типов клеток.

Как видно из многих из приведенных выше примеров, вариационный автокодировщик (VAE) имеет большой потенциал в биологических приложениях. Скрытое пространство - это распределение вероятностей вместо одного вектора в традиционном автокодировщике. Распределение вероятностей лучше подходит для моделирования сложных и динамических биологических систем. Помимо уменьшения размеров, распределение вероятностей в скрытом пространстве можно использовать для создания новых образцов, как показано в примере с ингибитором киназы DDR1. Кроме того, мы можем использовать распределение для интерполяции выборок между различными условиями, например от здоровых к легким симптомам болезни, затем к тяжелой стадии заболевания. (Я еще не видел никаких приложений, но это очень интересно исследовать.) Идея VAE фактически пришла из вариационного байесовского метода [14]. Это отличный пример того, что сочетание статистики и машинного обучения может привести к прорыву.

Кроме того, я очень заинтересован в использовании автокодировщика для построения генной сети. После создания автоэнкодера можно определить влияние одного гена на другой ген путем вычисления градиента одного гена в выходном слое по отношению к другому гену во входном слое. Комбинация искусственной естественной сети и генной сети должна быть в состоянии повысить точность генной сети, построенной на основе многомерных и зашумленных данных, и решить проблему интерпретируемости в глубоком обучении для биологии и, в конечном итоге, поможет понять «правила» биологии. Использование автоэнкодера для построения генной сети имеет много преимуществ. Во-первых, он может изучить сложные нелинейные отношения между генами. Во-вторых, он может изучать все взаимодействия ген-ген одновременно и принимать во внимание все другие гены при вычислении взаимосвязи между одной парой генов (в отличие от общей сети коэкспрессии, которая игнорирует другие гены). В-третьих, обучение модели с использованием алгоритма мини-пакетного градиентного спуска не требует дополнительных вычислительных ресурсов, если доступно больше данных, что позволяет нам использовать огромное количество общедоступных наборов данных. Это не относится ко многим другим методам построения генной сети.

Ссылки:

[1] Субраманиан А. и др. Карта подключений нового поколения: платформа L1000 и первые 1 000 000 профилей. Клетка. 2017. 171 (6): 1437–1452.

[2] Абдолхоссейни, Фарзад и др. «Коды идентификации клеток: понимание идентичности клеток из профилей экспрессии генов с использованием глубоких нейронных сетей». Научные отчеты 9.1 (2019): 2342.

[3] Уэй, Грегори П. и Кейси С. Грин. «Извлечение биологически релевантного латентного пространства из транскриптомов рака с помощью вариационных автоэнкодеров». BioRxiv (2017): 174474.

[4] Ван, Дунфан и Цзинь Гу. «VASC: уменьшение размеров и визуализация данных одиночной клеточной последовательности РНК с помощью глубокого вариационного автоэнкодера». Геномика, протеомика и биоинформатика 16.5 (2018): 320–331.

[5] Эраслан, Гёкчен и др. «Шумоподавление одноклеточной РНК-секвенирования с использованием автоэнкодера с глубоким подсчетом». Nature communications 10.1 (2019): 390.

[6] Дэн Юэ и др. «Масштабируемый анализ клеточного состава на основе одноклеточной транскриптомики с использованием глубокого рекуррентного обучения». Природные методы 16.4 (2019): 311.

[7] Ван, Тонгсинь и др. «BERMUDA: новый метод обучения с глубоким переносом для пакетной коррекции секвенирования одноклеточной РНК выявляет скрытые клеточные подтипы с высоким разрешением». Биология генома 20.1 (2019): 1–15.

[8] Чжан, Илян и др. «SCRIBE: новый подход к вменению отсева и коррекции пакетных эффектов для одноклеточных данных РНК-seq». BioRxiv (2019): 793463.

[9] Лопес-Гарсия, Гильермо и др. «Подход с трансфертным обучением для извлечения признаков из транскриптомов рака с помощью глубоких автоэнкодеров». Международная рабочая конференция по искусственным нейронным сетям. Спрингер, Чам, 2019.

[10] Смит, Аарон М. и др. «Глубокое обучение репрезентаций для предсказания фенотипа на основе транскриптомики». BioRxiv (2019): 574723.

[11] Taroni, Jaclyn N., et al. «MultiPLIER: структура трансферного обучения для транскриптомики выявляет системные особенности редкого заболевания». Клеточные системы 8.5 (2019): 380–394.

[12] Жаворонков, Алекс и др. «Глубокое обучение позволяет быстро идентифицировать сильные ингибиторы киназы DDR1». Природная биотехнология 37.9 (2019): 1038–1040.

[13] Лотфоллахи, Мохаммад, Ф. Александр Вольф и Фабиан Дж. Тайс. «ScGen предсказывает реакции возмущения отдельных клеток». Природные методы 16,8 (2019): 715.

[14] Кингма, Дидерик П. и Макс Веллинг. «Автоматическое кодирование вариационного байеса». Препринт arXiv arXiv: 1312.6114 (2013).