Блокнот для глубокого обучения

Некоторые заметки об архитектуре нейронных сетей…

1- Персептроны (нейронная сеть с прямой связью)

Первое поколение нейронных сетей
Вычислительные модели одиночного нейрона
Подает информацию спереди назад
Обучение обычно требует обратного распространения

2- Сверточные нейронные сети (CNN)

LeNet
– Распознаватель рукописных цифр
– Использует обратное распространение в сети прямой связи со многими скрытыми слоями
– Позднее формализовано под названием CNN

В основном используется для обработки изображений
Может также использоваться для аудио

3- Рекуррентные нейронные сети (RNN)

Моделирование последовательности
Он использует методы, предназначенные для контролируемого обучения, но не требует отдельного обучающего сигнала.
Модели без памяти являются стандартным подходом к этой задаче.
В основном персептроны, но имеют связи между проходами, связи во времени
Хороший выбор для продвижения дополнительной информации, такой как автозаполнение.

4- Долговременная/кратковременная память (LSTM)

Решена проблема с тем, чтобы заставить RNN запоминать вещи на долгое время.
Ячейка памяти хранит предыдущие значения и удерживает их, если ворота забывания не сообщают ячейке забыть эти значения.
Запоминать материал из предыдущих итераций столько, сколько необходимо
Способен выучить сложные последовательности, например, писать как Шекспир или сочинять примитивную музыку.

5- Закрытая рекуррентная установка (ГРУ)

Функция очень похожа на LSTM
Чуть быстрее и проще в управлении, но чуть менее выразительный
Не нужны слои ячеек для передачи значений

6- Сеть Хопфилда (HF)

Каждый нейрон связан с каждым другим нейроном
Каждый узел вводится перед обучением, затем скрывается во время обучения и выводится после него.
N устройств могут запоминать только 0,15N шаблонов, что значительно ограничивает количество образцов, которые может запомнить сеть.

7- Машина Больцмана

Тип стохастической RNN
Умение представлять и решать сложные комбинаторные задачи
Очень похоже на HN, но некоторые нейроны помечены как входные, а другие остаются скрытыми.
Входные нейроны становятся выходными в конце полного обновления сети.
Начинает со случайных весов и учится с помощью обратного распространения
Нейроны в основном имеют бинарные паттерны активации.
Цель обучения состоит в том, чтобы максимизировать произведение вероятностей
Стохастические обновления единиц должны быть последовательными

Углубленная машина Больцмана (DBM)
– делает обновления более параллельными
– обычная машина Больцмана с большим количеством отсутствующих соединений

8- Сети глубокого убеждения

Обратное распространение: Считается стандартным методом в искусственных нейронных сетях для расчета вклада ошибок каждого нейрона после обработки пакета данных.
Основные проблемы обратного распространения распространение
— требуются помеченные обучающие данные; в то время как почти все данные не размечены
- Время обучения плохо масштабируется
- Очень медленно в сетях с несколькими скрытыми слоями
- Может застрять в плохом локальном оптимуме
- Далеко от оптимального для глубоких сетей

Использует неконтролируемые подходы к обучению для преодоления ограничений обратного распространения
Направленный ацилический граф, состоящий из стохастических переменных
Можно обучить с помощью конструктивной дивергенции или обратного распространения и научиться представлять данные в виде вероятностной модели.
После обучения или приведения к стабильному состоянию посредством обучения без учителя модель можно использовать для генерации новых данных.
При обучении с помощью конструктивной дивергенции он может даже классифицировать существующие данные, потому что нейроны вынуждены искать различные признаки.

9- Автоэнкодеры

Нейронные сети, предназначенные для обучения без учителя, когда данные не помечены
Может использоваться для кодирования данного ввода в представление меньшего размера.
Затем можно использовать декодер для восстановления входных данных из закодированной версии.
Очень похоже на анализ главных компонентов
Может использоваться для уменьшения размерности, предварительной подготовки других нейронных сетей, для генерации данных…

10- Генеративно-состязательная сеть (GAN)

2 сети работают вместе
Часто комбинация Feed Forward и CNN
Один должен создавать контент (генеративный), а другой должен оценивать контент (дискриминационный).
Приложения; интерактивное редактирование изображений, оценка 3D-формы, открытие лекарств, частично контролируемое обучение, робототехника…