Лейкоцитарные антигены человека (HLA) представляют собой набор белков клеточной поверхности, которые связываются с короткими пептидами. Этот процесс связывания отвечает за то, чтобы иммунная система могла отличать ваши собственные клетки от клеток, которые не принадлежат вашему телу, и за запуск иммунного ответа антител. HLA кодируются генами, расположенными на участке из пяти миллионов пар оснований в хромосоме 6p21, называемом областью главного комплекса гистосовместимости (MHC), которая является одновременно наиболее генной и генетически разнообразной областью в геноме человека. Более 200 генов лежат в области MHC, и многие из генов HLA в этом регионе имеют множество задокументированных аллелей. На момент написания было идентифицировано более 20 000 аллелей HLA.

HLA выполняют несколько ролей, в том числе:

Определение совместимости для пожертвований органов

HLA являются основной причиной отторжения трансплантата органов. Если HLA между клетками реципиента и донора несовместимы, иммунная система реципиента атакует новый орган как чужеродные клетки. Несмотря на то, что существует много HLA, врачи обычно проверяют соответствие только для наиболее широко экспрессируемых HLA, таких как HLA -A, -B и -C, для сопоставления тканей. Ближайшие члены семьи - золотой стандарт для доноров органов.

Защита от болезней

С разными аллелями HLA связано более 100 заболеваний. Например, исследование предполагает, что определенные аллели HLA связаны с тяжелым исходом COVID-19 [1]. Более того, ВИЧ-позитивные люди, гомозиготные по определенным генам HLA, обычно прогрессируют до СПИДа намного быстрее, чем гетерозиготы. У некоторых гомозиготных особей скорость прогрессирования вдвое выше, чем у гетерозигот. Эта дифференциальная прогрессия довольно тесно коррелирует со степенью гетерозиготности. Таким образом, можно связать гетерозиготность по аллелям HLA со снижением скорости прогрессирования СПИДа [2].

Влияние на наши партнерские предпочтения

HLA может быть связан с восприятием людьми запаха других людей и может быть задействован в выборе партнера, поскольку по крайней мере одно исследование обнаружило более низкий, чем ожидалось, уровень сходства HLA между супругами в изолированном сообществе [3]. В сочетании с тем фактом, что гетерозиготы HLA обычно более устойчивы к некоторым заболеваниям, можно сказать, что мы биологически побуждаем искать партнеров, с которыми мы можем иметь самых здоровых детей.

Как сейчас выполняется HLA Typing

Поскольку существует множество аллелей HLA, и разные комбинации аллелей HLA могут давать разные результаты в отношении заболеваний и совместимости тканей, очевидно, что важно знать, какие аллели HLA у вас есть. Процесс определения ваших HLA называется типизацией HLA. К сожалению, HLA, как известно, сложно генотипировать, в основном из-за огромного количества аллелей, существующих для каждого HLA. Вот некоторые из текущих методов ввода HLA:

Серотипирование - это самый грубый метод типирования HLA. Он включает в себя взятие образца крови и введение в клетки крови антител для выявления определенных серотипов. Серотипы представляют собой очень широкие группы вместо какого-либо одного аллеля, и этот метод типирования сильно зависит от качества скрининговых антител.

Последовательная типизация (SBT) уже много лет является золотым стандартом HLA-типирования. Он включает ПЦР-амплификацию конкретных кодирующих областей генов HLA и секвенирование ампликонов. Процесс может быть довольно трудоемким и длительным. Более того, SBT может иметь проблемы с распознаванием неоднозначных комбинаций аллелей по одной из нескольких причин. Одна из таких причин заключается в том, что SBT только усиливается, а последовательности выбирают экзоны. Некоторые аллели можно отличить только по полиморфизму, локализованному в несеквенированных экзонах или даже интронах, как в случае с нулевыми аллелями, которые не экспрессируются. В следующем примере только первый аллель может быть однозначно идентифицирован посредством секвенирования первого экзона. Другие аллели можно идентифицировать только путем секвенирования вне этого экзона.

В новых методах HLA-типирования используются технологии высокопроизводительного секвенирования (HTS, AKA следующего поколения), которые могут разрешить эти неоднозначности. Тем не менее, улучшение методов HLA-типирования остается постоянной областью исследований.

Модель машинного обучения для HLA Typing

Чтобы продемонстрировать, как машинное обучение может быть использовано для HLA-типирования, я применил модель Microsoft LightGBM для прогнозирования количества копий аллеля HLA-A * 01: 01 (одного из наиболее распространенных аллелей HLA-A) из всего генома. геномный профиль. Поскольку геномы человека диплоидны, вы потенциально можете иметь 0, 1 или 2 копии этого аллеля. На данный момент мой метод разработан только для аллеля HLA-A * 01: 01, но его можно легко распространить на все гены и аллели HLA. Я использовал набор данных 1000Genomes, который содержит более 2000 образцов, для обучения модели. Чтобы оценить производительность модели, я предоставил часть этого набора данных в качестве набора для тестирования. В идеале оценка должна выполняться на внешнем наборе данных; однако доступ к этим наборам данных за пределами академических кругов ограничен. Ранее опубликованные академические методы прогнозирования типов HLA непосредственно на основе данных генотипа включают HIBAG [4], HLA * IMP [5] и SNP2HLA [6]; Эти методы действительно включают оценку внешних наборов данных, и я предлагаю проверить их, если вы хотите узнать больше. Вот частичный пример кода, демонстрирующий части записной книжки Jupyter, которую я написал:

import lightgbm as lgb
import allel
import pandas as pd
# read in HLA data table using pandas library
hla_df = pd.read_csv(‘20181129_HLA_types_full_1000_Genomes_Project_panel.txt’, delimiter=’\t’, index_col=’Sample ID’)
hla_df

# read in VCF using scikit-allel library
callset = allel.read_vcf(‘ALL.chr6.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz’, region=’6:29677984–33485635')
gt = allel.GenotypeArray(callset[‘calldata/GT’])
gt

# train a lightgbm model. train_data and test_data are feature,
# label pair datasets derived from the HLA data table and VCF files 
parameters = {‘objective’: ‘cross_entropy’,
              ‘metric’: ‘cross_entropy’,
              ‘is_unbalance’: ‘true’,
              ‘boosting’: ‘gbdt’,
              ‘num_leaves’: 31,
              ‘feature_fraction’: 0.5,
              ‘bagging_fraction’: 0.5,
              ‘bagging_freq’: 20,
              ‘learning_rate’: 0.05,
              ‘verbose’: 0}
model = lgb.train(parameters, train_data, valid_sets=test_data,
                  num_boost_round=128)

Одна из причин, по которой я выбрал LightGBM для решения этой конкретной проблемы, заключается в том, что он имеет функцию важности характеристик. Важность функции - это относительный процентный показатель того, насколько функция влияет на производительность модели, обеспечивающую некоторую интерпретируемость. В этом случае каждый признак представляет собой вариант, расположенный в регионе MHC, поэтому значение важности каждого признака может быть нанесено на график в зависимости от его положения в хромосоме, чтобы получить фигуру, похожую на график Манхэттена:

Как и ожидалось, генетические варианты, которые наиболее важны для прогнозирования HLA-A * 01: 01, расположены рядом с геном HLA-A. Но многие информативные варианты расположены далеко от HLA-A, что делает интерпретацию взаимосвязи между вариантами и типизацией HLA менее ясной. Тем не менее, если основная цель - точно предсказать тип HLA, эта модель более чем адекватна.

Функция важности функции также полезна для выбора функции. Исходный набор обучающих данных содержал 72 тыс. Вариантов. Используя важность функций, мы можем отфильтровать варианты, минимизируя влияние на производительность модели. Имея это в виду, я сократил набор данных до 19 наиболее информативных вариантов. Я ожидаю, что в будущем этот подход будет полезен для разработки оптимальных микрочипов. Хотя HTS в значительной степени предпочитают микроматрицы для обнаружения, микроматрицы по-прежнему широко используются для генотипирования распространенных вариантов, поскольку они значительно дешевле, чем HTS, и гораздо более удобны для обработки тысяч образцов, необходимых для типичных исследований ассоциаций в масштабе всего генома. Мой метод также может дополнять существующие методы ввода HLA в качестве этапа проверки.

Если вы хотите поэкспериментировать с моделью, то можете ознакомиться с записной книжкой здесь.

Ссылки

  1. Нгуен, А., Дэвид, Дж. К., Маден, С. К., Вуд, М. А., Видер, Б. Р., Неллор, А., и Томпсон, Р. Ф. (2020). Карта чувствительности лейкоцитарного антигена человека к SARS-CoV-2. Журнал вирусологии.
  2. Кэррингтон, М., Нельсон, Дж. У., Мартин, М. П., Кисснер, Т., Влахов, Д., Годерт, Дж. Дж.,… И О’Брайен, С. Дж. (1999). HLA и ВИЧ-1: преимущество гетерозиготы и недостаток B * 35-Cw * 04. Наука, 283 (5408), 1748–1752.
  3. Бреннан П. А. и Кендрик К. М. (2006). Социальные запахи млекопитающих: привлекательность и индивидуальное признание. Философские труды Королевского общества B: Биологические науки, 361 (1476), 2061–2078.
  4. Чжэн, X., Шен, Дж., Кокс, К., Уэйкфилд, Дж. К., Эм, М. Г., Нельсон, М. Р., и Вейр, Б. С. (2014). HIBAG - вменение генотипа HLA с использованием атрибута bagging. Журнал фармакогеномики, 14 (2), 192–200.
  5. Дилтей, А. Т., Муцианас, Л., Лесли, С., и Маквин, Г. (2011). HLA * IMP - интегрированная структура для вменения классических аллелей HLA из генотипов SNP. Биоинформатика, 27 (7), 968–972.
  6. Цзя, X., Хан, Б., Оненгут-Гумуску, С., Чен, В. М., Конканнон, П. Дж., Рич, С. С.,… и де Баккер, П. И. (2013). Внесение аминокислотного полиморфизма в лейкоцитарные антигены человека. Плохой, 8 (6).