Мультиомиксное прогнозирование на основе высококонтентных сотовых изображений с глубоким обучением

Эта статья является первой в новой серии публикаций, в которых рассматриваются новейшие и лучшие методы моделирования AI/ML и обработки данных, о которых я буду писать. Подробности будут позже, следите за обновлениями!

Давайте взглянем на интересный метод прогнозирования протеомной и транскриптомной экспрессии по высококонтрастным клеточным изображениям. Можно ли узнать обилие основных генов/белков с помощью клеточной визуализации?

Введение

Мультиомиксное прогнозирование на основе высококонтентных сотовых изображений с глубоким обучением
Ссылка: https://arxiv.org/abs/2306.09391

В этой статье от GSK.ai описывается новый метод — Image2Omics — который может предсказывать транскриптомную и протеомную экспрессию на основе изображений клеток с высоким содержанием. Оценка проводилась на макрофагах, полученных из hiPSC, при двух условиях стимуляции (M1 и M2) и с использованием 152 возмущений на основе CRISPR, охватывающих широкий профиль экспрессии. Результаты, представленные во введении, по-видимому, указывают на многообещающий результат для протеомного изобилия.

Открывая мысли, эта техника очень интересна и нова. Авторы предполагают, что клеточная визуализация может обеспечить необходимую изменчивость данных для получения протеомных и транскриптомных выражений. Здесь авторы ссылаются на объемную протеомику и объемную транскриптомику. Любой, кто работал с этими наборами данных, как и я, сразу же задастся вопросом, как можно зафиксировать изменчивость тысяч функций в базовой системе с помощью визуализации на уровне клеток. А как насчет белков с низким содержанием, будут ли клеточные изменения, которые можно будет зафиксировать при визуализации, которые отражают высокую / низкую экспрессию белка с низким содержанием? А изоформы? И, наконец, можем ли мы масштабировать это до уровня образца или ткани? Давайте углубимся в методы, чтобы понять больше и посмотреть, сможем ли мы получить некоторые ответы.

В этой статье я сосредоточусь только на моделировании и вычислительной работе, в основном игнорируя методы сбора данных, предполагая, что они были хорошо продуманы с адекватным контролем качества.

Две детали, которые нужно добавить,

  1. низкоэкспрессированные гены/белки были отфильтрованы…