Интересное название, верно?! А еще статья!

ВСТУПЛЕНИЕ:

В мире главный большой сдвиг произошел в направлении секвенирования и синтеза ДНК, -AI, MV & ML- и автоматизации, в которых секвенирование и синтез ДНК завоевали корону!

Компания с комбинацией уникальной био-ИС (интеллектуальной собственности), программного обеспечения и необходимой базы данных позволяет быстро создавать продукты и даже расширять партнерские отношения.

Компании CompBio — это больше, чем мы можем себе представить, многие компании получили более 20 миллиардов долларов! Колоссальный!

Начнем с прелимов!

Машинное обучение: искусство обучения машины достижению собственного интеллекта, ИИ.

Генетика: ДНК (дезоксирибонуклеиновая кислота) представляет собой двойную спираль, которая несет генетическую информацию о развитии, функционировании, росте и размножении всех организмов и вирусов! Каждый младенец наследует гены от своих биологических родителей. И изучением этих генов занимается генетика. У большинства из нас есть две копии генома (содержит гены, а также некодирующую ДНК, изучением этого является геномика) с 6 миллиардами пар ДНК!

Давайте начнем…!

Чтобы достичь желаемых требований, у нас должен быть подход или методы для их достижения. Машинное обучение, по сути, имеет три таких метода, чтобы удовлетворить максимальное количество наших требований. Они есть:

  • Метод контролируемого обучения
  • Неконтролируемый метод обучения
  • Полууправляемый метод обучения

Контролируемое обучение –

Давайте начнем с примера для лучшего понимания! Рассмотрим последовательность ДНК хромосомы. Для этого у нас есть алгоритм машинного обучения, называемый алгоритмом поиска генов. Цель этого алгоритма состоит в том, чтобы предсказать расположение и разработанную интронно-экзонную структуру генов, кодирующих белок хромосом. В этом контролируемом обучении мы обучаем алгоритм/машину таким образом, чтобы он мог распознавать требуемое значение из набора данных, который мы предоставляем (здесь помеченный набор данных). В этом алгоритме мы предоставляем данные генома, которые имеют начало и конец (в генетической терминологии это TSS (сайт начала транскрипции) и TTS (сайты ДНК-мишени Triplex)) гена гена (который является исходным). Теперь настала очередь модели использовать предоставленные данные и узнать о структуре последовательности ДНК, распределении длин UTR (нетранслируемых областей) и об интронах. Все это может помочь в поиске новых генов, которые напоминают предоставленные данные или технически называются набором для обучения.

Обучение без учителя –

Давайте начнем этот тип обучения с изучения наборов эпигеномных данных. Он имеет огромный объем данных, и получение необходимых результатов через человека становится непрактичным! В таких неразмеченных наборах данных мы используем самый надежный метод, называемый неконтролируемым обучением. Суть этого типа обучения в простых терминах: нам не нужно предоставлять помеченные данные, нам просто нужно предоставить все непомеченные данные, и он преобразует все их в помеченные данные, где требуется человек. присвоение каждой смысловой метки. Дополнительным преимуществом этого типа обучения является то, что мы можем находить новые гены из эпигеномных данных, когда помеченные данные недоступны.

Обучение с частичным учителем:

Как мы видели до сих пор, мы узнали, что при обучении с учителем нам нужны данные, которые помечены как входные, а при обучении без учителя алгоритм получает только данные без меток. Интересно отметить, что… Вы, наверное, уже догадались… Да, это комбинация из двух! Посмотрим как;) Говоря простым языком, вход этого типа обучения — это небольшое количество размеченных данных, объединенных с большим количеством неразмеченных данных в процессе обучения. В алгоритме поиска генов на вход поступают данные обоих типов. Здесь помеченный набор данных используется для поиска и маркировки оставшихся данных. Весь процесс повторяется до тех пор, пока мы не найдем новых генов. В этом типе обучения модель может учиться на больших наборах данных, и обычно мы используем этот тип обучения в геномике и генетике.

Опираясь на имеющийся у нас набор данных, мы должны мудро принять решение о выборе правильного метода обучения (то есть выбора функций)!

Генеративный подход против дискриминационного подхода:

Это одно из приложений ML. Давайте разбираться с этим осознанно! Предположим, что если у нас есть два типа набора данных, генеративный подход работает таким образом, что он фокусируется на построении модели каждого набора данных, а дискриминационный подход работает таким образом, что фокусируется только на разделении двух типов наборов данных.

Машинное обучение в генетике помогает нам идентифицировать генетическое выражение, генетические взаимодействия, последовательности и многое другое. Поскольку у нас есть огромное количество данных, многие факторы, включая факторы транскрипции, модификацию гистонов, доступность хроматина и многие другие генные данные, выбор правильного метода машинного обучения для набора данных, который у нас есть, играет важную роль! Дополнительные исследования в области машинного обучения и генетики приводят к удивительным открытиям!