КЛАССИФИКАТОР ФУНКЦИЙ БЕЛКА:
›› классификатор функций белков
›› предварительная обработка данных
›› Загрузка данных и получение формы данных
›› Тестирование и обучение данных
›› формы в глубине
›› последовательная модель
›› Функциональная модель
РЕЗЮМЕ :
мы собираемся решить классификатор функций белка. В этом мы делаем четыре шага обработки данных, загрузки данных, тестирования и обучения данных, и, наконец, мы получим нашу модель.
ОБ ЭТОМ ПРОЕКТЕ:
Белки играют важную роль в живых организмах, и их функция напрямую связана с их структурой. Из-за растущего разрыва между количеством обнаруживаемых белков и их функциональными характеристиками, в частности, в результате экспериментальных ограничений, надежное предсказание функции белков с помощью вычислительных средств стало критически важным.
ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ:
В этом мы собираемся создать классификатор функций белка с помощью ML. Здесь нам нужны пакеты или регулярная регрессия, а также у нас есть пакеты и glob для некоторых последствий. Во-первых, мы хотим определить наш файловый диск. мы наш файл в папке соскобов данных. Итак, мы используем для очистки, мы видим Linux для ../ очистки данных и для Windows,. \ Data scrapes.Os.ath.join с этим кодом, мы можем запускать наш код на платформах Google бесплатно. Затем импортируйте данные и время, когда для этого был создан файл. мы инициализируем число белков как 0. Мы создаем fasta file1, потому что у нас есть много файлов fasta. Давайте перейдем к циклу с файлом fasta, и каждую строку мы должны добавить кое-что. теперь мы создаем файлы аннотаций функций белков, такие же, как мы в fastafile, тогда и print имеет функцию, мы получим отдельный белок I’d для 10 белков.
ЗАГРУЗКА ДАННЫХ И ПОЛУЧЕНИЕ ФОРМЫ ДАННЫХ:
При этом мы меняем данные в другой формат. нам нужны пакеты NumPy, os, KERAS sequence и JSON. Во-первых, наша функция будет загружаться с помощью JSON. Мы получим список всех белков, которые демонстрируют поведение связывания АТФ. зададим размер последовательности. Мы инициируем несколько значений и получим последовательность строк белков функцией seq индексов. мы можем изменить последовательность индексов. мы также можем изменить последовательность строк и, наконец, распечатать этикетку с последовательностью.
ТЕСТИРОВАНИЕ И ОБУЧЕНИЕ НАБОРА ДАННЫХ:
Процедура включает в себя разделение набора данных на два подмножества. Первое подмножество используется для соответствия модели и называется набором данных для обучения. Второе подмножество не используется для обучения модели; вместо этого входной элемент набора данных предоставляется модели, затем делаются прогнозы и сравниваются с ожидаемыми значениями. Этот второй набор данных называется тестовым набором данных.
НАБОР ДАННЫХ ПОЕЗДА: используется для соответствия модели машинного обучения.
НАБОР ТЕСТОВЫХ ДАННЫХ: используется для оценки подходящей модели машинного обучения.
Цель состоит в том, чтобы оценить производительность модели машинного обучения на новых данных: данных, которые не используются для обучения модели. В нашем классификаторе функций белка Тестирование и обучение необходимы только для больших прогнозов, и это делается на основе размера набора данных, который у нас есть размер 500, мы разделим его на два процента: 66% и 33%. мы получим нашу x_shape как (7,500) и y_shape как (7,). Произведите случайный выбор нашего набора данных, повторив тестирование и обучение. для, например, (6,2,5…) и форм печати снова мы получим (5,500) как форму поезда (5,) как форму поезда.
ФОРМЫ В ГЛУБИНУ:
Здесь у нас есть точки данных в x_all и y_all. В этом случае нам нужно разделить данные на тестовые и обучающие. у нас есть 7 точек данных и размер вектора 500, это означает форму наших данных. мы разделим это на 66% и 33% ... затем мы перемешиваем и рандомизируем точки данных, потому что нам не нужны все белки, нам нужны только первые 5 точек данных. поэтому мы shuffle.it дает перетасованную последовательность первых пяти точек данных. Мы не использовали перекрестную проверку k в этом случае, это не применимо для глубокого обучения, поэтому мы рандомизируем данные. в тестовом сплите мы сделали n * 2/3. наконец, мы получаем форму поезда как (5,500) и тестируем форму как (2,500).
ПОНИМАНИЕ ФОРМЫ:
Сначала у нас есть 5 точек данных, затем мы даем 500 векторов каждой точке данных,
>>i.e [. . . . . 5 ]
Затем мы даем 500 векторов 5 точкам данных,
>>[ [. . . . . . . . .500 ] [] [] [] [] ]
›› Сейчас фигура (5 500).
Теперь нам нужно преобразовать наши категориальные значения в числовые значения с помощью «горячего представления». Это означает, что в наших точках данных должны содержаться,
[ 0 0 0 0 0 1 0 0 0 0 0 ]
Подобным образом это называется «горячим представлением» или «горячим кодированием». Потому что все алгоритмы машинного обучения не могут принимать категориальные значения. поэтому мы будем использовать это. Теперь в нашем классификаторе функций Protein наша форма равна (5,500), мы преобразуем наши 11 в одно горячее представление, после чего оно станет [. . . . . . . .23] в этом случае мы расширим нашу первую точку первой точки данных, в которой каждый из 500 содержит 23 вектора, после чего мы получим окончательную форму (5 500,23).
ПОСЛЕДОВАТЕЛЬНАЯ МОДЕЛЬ:
>>МОДЕЛЬ :
Прежде всего, мы импортируем слои KERAS, они есть,
ВСТУПИТЕЛЬНЫЙ СЛОЙ:
Чтобы использовать слова для обработки естественного языка или задач машинного обучения, необходимо сначала сопоставить их с непрерывным векторным пространством, создавая, таким образом, векторы слов или вложения слов. Слой Keras Embedding полезен для построения таких векторов слов.
›› input_dim: размер словарного запаса.
›› input_dim: int ›0. Размер словаря
›› output_dim: int ›= 0. Размерность плотного вложения.
›› input_length: длина входных последовательностей.
ПЛОСКИЙ СЛОЙ:
Операция выравнивания тензора изменяет форму тензора, чтобы он имел форму, равную количеству элементов, содержащихся в тензоре, без учета размера партии.
ПЛОТНЫЙ СЛОЙ:
Плотный слой - это обычный глубоко связанный слой нейронной сети. Это самый распространенный и часто используемый слой. Плотный слой выполняет описанную ниже операцию над входом и возвращает результат.
СЛОЙ АКТИВАЦИИ:
Слой активации в keras эквивалентен плотному слою с такой же активацией, переданной в качестве аргумента.
SGD:
Оптимизатор SGD Keras (стохастический градиентный спуск) Оптимизатор SGD использует градиентный спуск вместе с импульсом. В оптимизаторе этого типа для вычисления градиента используется подмножество пакетов. Синтаксис SGD в Keras. В этом первом импортируемом слое, называемом встраиванием, сглаживанием, плотностью и активацией, наша модель является последовательной моделью, а наш оптимизатор - SGD. Затем мы создаем последовательную модель и добавляем слои, сначала мы добавляем слой встраивания, чтобы узнать о размере, затемнении, длине нашего набора данных. Здесь наш размер 23, dim равен 10, а длина f seq равна 500. мы выйдем как один слой, который встраивается в out shape, мы получим (none, 500,10) none означает размер пакета, мы дадим любой значение для размера пакета, мы не получим ничего. затем мы переходим к другому слою, который является плотным слоем. и, наконец, мы добавляем плоский слой coz, чтобы предотвратить коллапс между слоями, затем сравниваем модель и подбираем модель.
ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ:
Теперь, наконец, мы изменим нашу модель с последовательной на функциональную. Сначала мы дадим максимальный размер ввода, то есть 500. После этого мы добавим слой внедрения с теми же данными, которые мы не добавляем, потому что мы передадим ввод на слой внедрения. Теперь мы можем создать новый слой под названием Flatten Layer, передать его с Embedded layer и добавить более плотный слой в 25 и 1. Затем, наконец, мы подобрали нашу модель.