КЛАССИФИКАТОР ФУНКЦИЙ БЕЛКА:

›› классификатор функций белков

›› предварительная обработка данных

›› Загрузка данных и получение формы данных

›› Тестирование и обучение данных

›› формы в глубине

›› последовательная модель

›› Функциональная модель

РЕЗЮМЕ :

мы собираемся решить классификатор функций белка. В этом мы делаем четыре шага обработки данных, загрузки данных, тестирования и обучения данных, и, наконец, мы получим нашу модель.

ОБ ЭТОМ ПРОЕКТЕ:

Белки играют важную роль в живых организмах, и их функция напрямую связана с их структурой. Из-за растущего разрыва между количеством обнаруживаемых белков и их функциональными характеристиками, в частности, в результате экспериментальных ограничений, надежное предсказание функции белков с помощью вычислительных средств стало критически важным.

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ:

В этом мы собираемся создать классификатор функций белка с помощью ML. Здесь нам нужны пакеты или регулярная регрессия, а также у нас есть пакеты и glob для некоторых последствий. Во-первых, мы хотим определить наш файловый диск. мы наш файл в папке соскобов данных. Итак, мы используем для очистки, мы видим Linux для ../ очистки данных и для Windows,. \ Data scrapes.Os.ath.join с этим кодом, мы можем запускать наш код на платформах Google бесплатно. Затем импортируйте данные и время, когда для этого был создан файл. мы инициализируем число белков как 0. Мы создаем fasta file1, потому что у нас есть много файлов fasta. Давайте перейдем к циклу с файлом fasta, и каждую строку мы должны добавить кое-что. теперь мы создаем файлы аннотаций функций белков, такие же, как мы в fastafile, тогда и print имеет функцию, мы получим отдельный белок I’d для 10 белков.

ЗАГРУЗКА ДАННЫХ И ПОЛУЧЕНИЕ ФОРМЫ ДАННЫХ:

При этом мы меняем данные в другой формат. нам нужны пакеты NumPy, os, KERAS sequence и JSON. Во-первых, наша функция будет загружаться с помощью JSON. Мы получим список всех белков, которые демонстрируют поведение связывания АТФ. зададим размер последовательности. Мы инициируем несколько значений и получим последовательность строк белков функцией seq индексов. мы можем изменить последовательность индексов. мы также можем изменить последовательность строк и, наконец, распечатать этикетку с последовательностью.

ТЕСТИРОВАНИЕ И ОБУЧЕНИЕ НАБОРА ДАННЫХ:

Процедура включает в себя разделение набора данных на два подмножества. Первое подмножество используется для соответствия модели и называется набором данных для обучения. Второе подмножество не используется для обучения модели; вместо этого входной элемент набора данных предоставляется модели, затем делаются прогнозы и сравниваются с ожидаемыми значениями. Этот второй набор данных называется тестовым набором данных.

НАБОР ДАННЫХ ПОЕЗДА: используется для соответствия модели машинного обучения.

НАБОР ТЕСТОВЫХ ДАННЫХ: используется для оценки подходящей модели машинного обучения.

Цель состоит в том, чтобы оценить производительность модели машинного обучения на новых данных: данных, которые не используются для обучения модели. В нашем классификаторе функций белка Тестирование и обучение необходимы только для больших прогнозов, и это делается на основе размера набора данных, который у нас есть размер 500, мы разделим его на два процента: 66% и 33%. мы получим нашу x_shape как (7,500) и y_shape как (7,). Произведите случайный выбор нашего набора данных, повторив тестирование и обучение. для, например, (6,2,5…) и форм печати снова мы получим (5,500) как форму поезда (5,) как форму поезда.

ФОРМЫ В ГЛУБИНУ:

Здесь у нас есть точки данных в x_all и y_all. В этом случае нам нужно разделить данные на тестовые и обучающие. у нас есть 7 точек данных и размер вектора 500, это означает форму наших данных. мы разделим это на 66% и 33% ... затем мы перемешиваем и рандомизируем точки данных, потому что нам не нужны все белки, нам нужны только первые 5 точек данных. поэтому мы shuffle.it дает перетасованную последовательность первых пяти точек данных. Мы не использовали перекрестную проверку k в этом случае, это не применимо для глубокого обучения, поэтому мы рандомизируем данные. в тестовом сплите мы сделали n * 2/3. наконец, мы получаем форму поезда как (5,500) и тестируем форму как (2,500).

ПОНИМАНИЕ ФОРМЫ:

Сначала у нас есть 5 точек данных, затем мы даем 500 векторов каждой точке данных,

>>i.e [. . . . . 5 ]

Затем мы даем 500 векторов 5 точкам данных,

>>[ [. . . . . . . . .500 ] [] [] [] [] ]

›› Сейчас фигура (5 500).

Теперь нам нужно преобразовать наши категориальные значения в числовые значения с помощью «горячего представления». Это означает, что в наших точках данных должны содержаться,

[ 0 0 0 0 0 1 0 0 0 0 0 ]

Подобным образом это называется «горячим представлением» или «горячим кодированием». Потому что все алгоритмы машинного обучения не могут принимать категориальные значения. поэтому мы будем использовать это. Теперь в нашем классификаторе функций Protein наша форма равна (5,500), мы преобразуем наши 11 в одно горячее представление, после чего оно станет [. . . . . . . .23] в этом случае мы расширим нашу первую точку первой точки данных, в которой каждый из 500 содержит 23 вектора, после чего мы получим окончательную форму (5 500,23).

ПОСЛЕДОВАТЕЛЬНАЯ МОДЕЛЬ:

>>МОДЕЛЬ :

Прежде всего, мы импортируем слои KERAS, они есть,

ВСТУПИТЕЛЬНЫЙ СЛОЙ:

Чтобы использовать слова для обработки естественного языка или задач машинного обучения, необходимо сначала сопоставить их с непрерывным векторным пространством, создавая, таким образом, векторы слов или вложения слов. Слой Keras Embedding полезен для построения таких векторов слов.

›› input_dim: размер словарного запаса.

›› input_dim: int ›0. Размер словаря

›› output_dim: int ›= 0. Размерность плотного вложения.

›› input_length: длина входных последовательностей.

ПЛОСКИЙ СЛОЙ:

Операция выравнивания тензора изменяет форму тензора, чтобы он имел форму, равную количеству элементов, содержащихся в тензоре, без учета размера партии.

ПЛОТНЫЙ СЛОЙ:

Плотный слой - это обычный глубоко связанный слой нейронной сети. Это самый распространенный и часто используемый слой. Плотный слой выполняет описанную ниже операцию над входом и возвращает результат.

СЛОЙ АКТИВАЦИИ:

Слой активации в keras эквивалентен плотному слою с такой же активацией, переданной в качестве аргумента.

SGD:

Оптимизатор SGD Keras (стохастический градиентный спуск) Оптимизатор SGD использует градиентный спуск вместе с импульсом. В оптимизаторе этого типа для вычисления градиента используется подмножество пакетов. Синтаксис SGD в Keras. В этом первом импортируемом слое, называемом встраиванием, сглаживанием, плотностью и активацией, наша модель является последовательной моделью, а наш оптимизатор - SGD. Затем мы создаем последовательную модель и добавляем слои, сначала мы добавляем слой встраивания, чтобы узнать о размере, затемнении, длине нашего набора данных. Здесь наш размер 23, dim равен 10, а длина f seq равна 500. мы выйдем как один слой, который встраивается в out shape, мы получим (none, 500,10) none означает размер пакета, мы дадим любой значение для размера пакета, мы не получим ничего. затем мы переходим к другому слою, который является плотным слоем. и, наконец, мы добавляем плоский слой coz, чтобы предотвратить коллапс между слоями, затем сравниваем модель и подбираем модель.

ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ:

Теперь, наконец, мы изменим нашу модель с последовательной на функциональную. Сначала мы дадим максимальный размер ввода, то есть 500. После этого мы добавим слой внедрения с теми же данными, которые мы не добавляем, потому что мы передадим ввод на слой внедрения. Теперь мы можем создать новый слой под названием Flatten Layer, передать его с Embedded layer и добавить более плотный слой в 25 и 1. Затем, наконец, мы подобрали нашу модель.