Код для этого поста.

Задний план

Одна из моих статей касалась секвенирования опухолей мышиной модели тройного негативного рака молочной железы (ТНРМЖ) [1]. Мы секвенировали опухоли, используя данные секвенирования РНК. Если вы не знакомы с этой технологией, RNA-seq секвенирует транскрипты РНК, чтобы сообщить вам, какие части генома экспрессируются [2].

Наша модель мыши была генетически модифицирована для развития TNBC путем делеции гена Trp53. Мы также удалили ген Brca1 у 50 % мышей, так как хотели изучить, как этот ген влияет на развитие опухоли (наши образцы см. в таблице 1). Таким образом, мышиные опухоли имели один из двух генотипов: Trp53-делетированный/Brca1-дикий тип или Trp53-делетированный/Brca1. em>-deleted (дикий тип просто означает, что ген не был удален или изменен). Поскольку генная инженерия не всегда совершенна и образцы могут быть перепутаны, нам нужно было проверить генотип каждой мыши. Мы можем сделать это, просмотрев данные секвенирования. Если ген удален в образце, мы не должны видеть никаких доказательств этого в данных секвенирования РНК (рис. 1).

Здесь я подробно описываю процесс, который я предпринял для проверки генотипов опухолей мышей в своей статье [1]. Некоторые опухоли нельзя было генотипировать с помощью традиционных методов молекулярной биологии, поэтому, когда мы секвенировали опухоль, мы не знали ее генотипа. Кроме того, мы также подозревали, что некоторые образцы могли быть неправильно генотипированы, основываясь на наших наблюдениях в PCA.

Подготовка данных

Данные РНК-секвенирования дают представление о том, как экспрессируются тысячи генов образца (транскриптом), и на них сильно влияет наличие или отсутствие генов. Следовательно, мы предположили, что мы увидим глобальное влияние на транскриптом при сравнении генотипов Brca1. На рисунке 2 (слева) показан PCA профиля экспрессии всех опухолей (14 137 генов и 149 образцов). Генотип Brca1 оказывает огромное влияние на транскриптом образца и, по-видимому, объясняет большую часть дисперсии. На рисунке также видно, что есть некоторые выбросы или образцы с потенциально неправильной маркировкой. Я решил удалить эти выбросы перед обучением моей модели (рис. 2, справа).

Необходимо ввести еще одну сложность в отношении этих данных. В образцах с Brca1-делетированным Brca1 удаляется не весь ген Brca1, а только его часть (функционально важная его часть). Ген мыши Brca1 имеет 23 экзона, и в образцах с Brca1 удалены только экзоны с 4 по 12. Поэтому, когда мы смотрим на количество прочтений, сопоставленных с каждым экзоном в РНК-последовательности, в идеале мы не должны видеть ни одного прочтения, сопоставленного с экзонами с 4 по 12. Однако, как показано на рисунках 3 и 4, мы не всегда увидим такое чистое случай по разным причинам. На рисунке 3 показано, что в экзонах с 4 по 12 определенно есть некоторая дискриминационная способность, но все еще есть некоторые образцы с удаленным Brca1 с числом прочтений, подобным Brca1-дикому типу. На рисунке 4 показан график PCA с использованием данных на рисунке 3, где образцы рассматривались как переменные. На рисунках 3 и 4 показано общее разделение образцов по генотипу Brca1, но оно не является совершенным. Возможные причины этого включают:

  1. Образец был неправильно маркирован
  2. Процесс создания генотипа с удаленным Brca1 оказался неэффективным.
  3. Образец может быть загрязнен тканью Brca1-дикого типа. Это может произойти из-за того, что ген Brca1 не должен был быть удален у всей мыши, а только в ткани, из которой возникла опухоль.

Задача состояла в том, чтобы создать классификатор, используя данные на рис. 3, чтобы я мог исправить любые неправильно маркированные образцы и предсказать генотип Brca1 для тех, для которых нам не хватало информации.

Моделирование

Экзонов 23, поэтому в этом наборе данных 23 переменных. Первоначально я думал, что для построения классификатора нужны только экзоны 4–12, но рисунок 3 показывает, что другие экзоны тоже могут быть полезны. Однако одна проблема с датой (будь то только экзоны 4–12 или все они) - это обильная коллинеарность между переменными (рис. 5 и 6). PCA показывает, что первый ПК объясняет более 60% дисперсии и ~ 90% в первых 5 ПК. Диаграмма рассеяния (рис. 6) показывает, как увеличивается корреляция между экзонами между соседними, и что экзоны 4–12 имеют гораздо более высокую корреляцию между собой по сравнению с остальными.

Коллинеарность в этом наборе данных показала, что я мог бы использовать PCA для уменьшения размерности. Я попробовал это (результаты в блокноте Jupyter), но это не лучше, чем другие модели, которые использовали все экзоны в качестве переменных. Модели, которые я пробовал, используют все 23 экзона:

  • Древо решений
  • ЛДА
  • ЛДА с усадкой
  • Линейный SVC
  • Нелинейный SVC
  • Обычная логистическая регрессия
  • Логистическая регрессия с усадкой l1
  • Логистическая регрессия с усадкой l2

Результаты перекрестной проверки и оптимизации параметров представлены на рисунке 7 и в таблице 2. Все они работают довольно хорошо, хотя LDA, обычная логистическая регрессия и логистическая регрессия с l1 показали немного худшие результаты. Повторный запуск перекрестной проверки на всех моделях может привести к немного отличающимся результатам, поэтому я просто использовал логистическую регрессию (с регуляризацией l2) для простоты взаимодействия. На рис. 8 показаны коэффициенты на экзон из модели.

Применение модели

Я применил логистическую регрессию (с l2), чтобы увидеть, какие образцы помечены неправильно. На рисунках 9, 10 и 11 показан один и тот же прогноз генотипа, но выделены разные подмножества образцов. Графики слева показывают PCA на профиле транскрипции (как показано на рисунке 2). Точно так же графики справа показывают PCA в профиле экспрессии экзонов (как показано на рисунке 4).

Даже после предсказания генотипа каждого образца профили транскрипции по-прежнему не дают четкого определения генотипа Brca1 (рис. 9, слева). Тем не менее, профиль экспрессии экзона образца соответствует (рис. 9, справа). Независимо от того, где образец находится на графике PCA транскриптома (рис. 10, слева), его недавно присвоенный генотип Brca1 относительно имеет смысл, если посмотреть, где он находится на графике PCA экспрессии экзона (рис. 10, справа); то есть образцы довольно хорошо группируются по генотипу Brca1. Наконец, образцы, которые были удалены как выбросы, по большей части не изменили генотип (рис. 11). Указание на то, что их первоначально назначенный генотип правильный.

Выводы

Биология (и биология рака) сложна, и фенотип не всегда коррелирует с генотипом. Хотя статус генотипа Brca1 доминирует в профиле транскрипции каждого образца, это не всегда так. Образцы с удаленным генотипом Brca1 иногда выглядят (фенотипически) как Brca1-дикий тип и наоборот. Существует множество потенциальных способов, которыми рак может либо восстановить, либо потерять функцию гена из-за таких вещей, как мутации, аберрации числа копий, сигнальные пути и т. д. Поэтому не следует слишком удивляться тому, что профиль транскрипции образца не полностью отражает его. Генотип Brca1.

Я использовал профиль экспрессии экзонов Brca1 для создания классификатора генотипа Brca1. Исследовательские графики данных показали довольно очевидную дискриминационную способность, хотя имеется довольно много коллинеарности. Попытки уменьшить коллинеарность с помощью PCA, а затем построить классификатор не превзошли модели с регуляризацией. В итоге я выбрал регуляризованную модель логистической регрессии из-за ее простоты взаимодействия.

Я идентифицировал много потенциально неправильно маркированных образцов, просматривая график профилей транскрипции PCA, который использует профиль экспрессии ~ 14 000 генов в каждом образце. После удаления этих потенциально неправильно маркированных образцов я построил классификатор. Невзирая на достижение точности › 95 %, большинство этих образцов, по прогнозам, имеют тот же генотип, который был им первоначально присвоен. Это указывает на то, что эти образцы каким-то образом фенотипически напоминают противоположный генотип Brca1.

использованная литература

  1. Лю Х., Мерфи С.Дж., Каррет Ф.А., Эмдал К.Б., Ян К., Уайт Ф.М. и др. Выявление и нацеливание на спорадические онкогенные генетические аберрации в мышиных моделях тройного негативного рака молочной железы. Открытие рака. 2017 г., 4 декабря; 8 (3): 354–69.
  2. Ван З., Герштейн М., Снайдер М. RNA-Seq: революционный инструмент для транскриптомики. Издательская группа «Природа». 2009 г., янв; 10 (1): 57–63.

Первоначально опубликовано на https://murphycj.github.io 23 июня 2018 г.