В прошлом посте я писал о недавнем конкурсе Kaggle по прогнозированию функций белков. Речь идет об использовании белковой последовательности для прогнозирования термина Генной Онтологии (GO). Большинство записей используют некоторые производные от LLM. Он обеспечивает превосходную точность прогнозов на публичном табло. Если вас интересует какое-то общедоступное решение, вы можете посетить веб-сайт конкурса.

Однако мне больше интересно узнать, какая комбинация аминокислот и их относительные положения наделяют белок определенной функцией(ями). Поэтому я пойду другим путем.

Для начала я взгляну на набор данных, чтобы узнать, что предоставляет организатор.

Профиль набора данных поезда

Файл поезда содержит 3 754 570 записей и включает в себя белки человеческого происхождения, вирусы, бактерии и другие. Именно поэтому общее количество уникальных аминокислот составляет 25 вместо 20, встречающихся у человека.

И эти 3 754 570 записей содержат 29 706 уникальных терминов GO.

Среди этих трех миллионов записей самая короткая последовательность содержит всего 3 аминокислоты, а самая длинная — более 35 тысяч.

Вы можете заметить, что в файле есть переменная с именем «aspect». Фактически он кодирует три широкие категории функций белка, а именно:

  1. Молекулярная функция (МФО),
  2. биологический процесс (БПО) и
  3. Клеточный компонент (CCO)

Вы могли заметить, что большинство белковых последовательностей подпадают под биологический процесс (БПО). И один белок может принадлежать более чем одному ГО и относиться к разным аспектам. Этот сильно искаженный набор данных может создать проблемы с классификацией.

Чтобы дать вам представление о том, каким будет термин GO, я извлекаю информацию с помощью следующего фрагмента кода.

А затем я готовлю следующий кадр данных pandas для сбора собранной информации.

Вы можете заметить, что некоторые термины GO имеют очень схожую идентичность, например GO: 0005582, GO: 0005590 и GO: 0005597, и все они связаны с тримером коллагена. Я бы предположил, что последовательности этих трех терминов GO могут иметь сходство с точки зрения состава и/или физической структуры, что можно было бы использовать в предсказании.

Антракт

В следующем посте я углублюсь в последовательность, чтобы увидеть, как они выглядят с точки зрения композиции.

Следите за обновлениями.