Интересное название, верно?! А еще статья!
ВСТУПЛЕНИЕ:
В мире главный большой сдвиг произошел в направлении секвенирования и синтеза ДНК, -AI, MV & ML- и автоматизации, в которых секвенирование и синтез ДНК завоевали корону!
Компания с комбинацией уникальной био-ИС (интеллектуальной собственности), программного обеспечения и необходимой базы данных позволяет быстро создавать продукты и даже расширять партнерские отношения.
Компании CompBio — это больше, чем мы можем себе представить, многие компании получили более 20 миллиардов долларов! Колоссальный!
Начнем с прелимов!
Машинное обучение: искусство обучения машины достижению собственного интеллекта, ИИ.
Генетика: ДНК (дезоксирибонуклеиновая кислота) представляет собой двойную спираль, которая несет генетическую информацию о развитии, функционировании, росте и размножении всех организмов и вирусов! Каждый младенец наследует гены от своих биологических родителей. И изучением этих генов занимается генетика. У большинства из нас есть две копии генома (содержит гены, а также некодирующую ДНК, изучением этого является геномика) с 6 миллиардами пар ДНК!
Давайте начнем…!
Чтобы достичь желаемых требований, у нас должен быть подход или методы для их достижения. Машинное обучение, по сути, имеет три таких метода, чтобы удовлетворить максимальное количество наших требований. Они есть:
- Метод контролируемого обучения
- Неконтролируемый метод обучения
- Полууправляемый метод обучения
Контролируемое обучение –
Давайте начнем с примера для лучшего понимания! Рассмотрим последовательность ДНК хромосомы. Для этого у нас есть алгоритм машинного обучения, называемый алгоритмом поиска генов. Цель этого алгоритма состоит в том, чтобы предсказать расположение и разработанную интронно-экзонную структуру генов, кодирующих белок хромосом. В этом контролируемом обучении мы обучаем алгоритм/машину таким образом, чтобы он мог распознавать требуемое значение из набора данных, который мы предоставляем (здесь помеченный набор данных). В этом алгоритме мы предоставляем данные генома, которые имеют начало и конец (в генетической терминологии это TSS (сайт начала транскрипции) и TTS (сайты ДНК-мишени Triplex)) гена гена (который является исходным). Теперь настала очередь модели использовать предоставленные данные и узнать о структуре последовательности ДНК, распределении длин UTR (нетранслируемых областей) и об интронах. Все это может помочь в поиске новых генов, которые напоминают предоставленные данные или технически называются набором для обучения.
Обучение без учителя –
Давайте начнем этот тип обучения с изучения наборов эпигеномных данных. Он имеет огромный объем данных, и получение необходимых результатов через человека становится непрактичным! В таких неразмеченных наборах данных мы используем самый надежный метод, называемый неконтролируемым обучением. Суть этого типа обучения в простых терминах: нам не нужно предоставлять помеченные данные, нам просто нужно предоставить все непомеченные данные, и он преобразует все их в помеченные данные, где требуется человек. присвоение каждой смысловой метки. Дополнительным преимуществом этого типа обучения является то, что мы можем находить новые гены из эпигеномных данных, когда помеченные данные недоступны.
Обучение с частичным учителем:
Как мы видели до сих пор, мы узнали, что при обучении с учителем нам нужны данные, которые помечены как входные, а при обучении без учителя алгоритм получает только данные без меток. Интересно отметить, что… Вы, наверное, уже догадались… Да, это комбинация из двух! Посмотрим как;) Говоря простым языком, вход этого типа обучения — это небольшое количество размеченных данных, объединенных с большим количеством неразмеченных данных в процессе обучения. В алгоритме поиска генов на вход поступают данные обоих типов. Здесь помеченный набор данных используется для поиска и маркировки оставшихся данных. Весь процесс повторяется до тех пор, пока мы не найдем новых генов. В этом типе обучения модель может учиться на больших наборах данных, и обычно мы используем этот тип обучения в геномике и генетике.
Опираясь на имеющийся у нас набор данных, мы должны мудро принять решение о выборе правильного метода обучения (то есть выбора функций)!
Генеративный подход против дискриминационного подхода:
Это одно из приложений ML. Давайте разбираться с этим осознанно! Предположим, что если у нас есть два типа набора данных, генеративный подход работает таким образом, что он фокусируется на построении модели каждого набора данных, а дискриминационный подход работает таким образом, что фокусируется только на разделении двух типов наборов данных.
Машинное обучение в генетике помогает нам идентифицировать генетическое выражение, генетические взаимодействия, последовательности и многое другое. Поскольку у нас есть огромное количество данных, многие факторы, включая факторы транскрипции, модификацию гистонов, доступность хроматина и многие другие генные данные, выбор правильного метода машинного обучения для набора данных, который у нас есть, играет важную роль! Дополнительные исследования в области машинного обучения и генетики приводят к удивительным открытиям!