Некоторые заметки об архитектуре нейронных сетей…
1- Персептроны (нейронная сеть с прямой связью)
- Первое поколение нейронных сетей
- Вычислительные модели одиночного нейрона
- Подает информацию спереди назад
- Обучение обычно требует обратного распространения
2- Сверточные нейронные сети (CNN)
LeNet
– Распознаватель рукописных цифр
– Использует обратное распространение в сети прямой связи со многими скрытыми слоями
– Позднее формализовано под названием CNN
- В основном используется для обработки изображений
- Может также использоваться для аудио
3- Рекуррентные нейронные сети (RNN)
- Моделирование последовательности
- Он использует методы, предназначенные для контролируемого обучения, но не требует отдельного обучающего сигнала.
- Модели без памяти являются стандартным подходом к этой задаче.
- В основном персептроны, но имеют связи между проходами, связи во времени
- Хороший выбор для продвижения дополнительной информации, такой как автозаполнение.
4- Долговременная/кратковременная память (LSTM)
- Решена проблема с тем, чтобы заставить RNN запоминать вещи на долгое время.
- Ячейка памяти хранит предыдущие значения и удерживает их, если ворота забывания не сообщают ячейке забыть эти значения.
- Запоминать материал из предыдущих итераций столько, сколько необходимо
- Способен выучить сложные последовательности, например, писать как Шекспир или сочинять примитивную музыку.
5- Закрытая рекуррентная установка (ГРУ)
- Функция очень похожа на LSTM
- Чуть быстрее и проще в управлении, но чуть менее выразительный
- Не нужны слои ячеек для передачи значений
6- Сеть Хопфилда (HF)
- Каждый нейрон связан с каждым другим нейроном
- Каждый узел вводится перед обучением, затем скрывается во время обучения и выводится после него.
- N устройств могут запоминать только 0,15N шаблонов, что значительно ограничивает количество образцов, которые может запомнить сеть.
7- Машина Больцмана
- Тип стохастической RNN
- Умение представлять и решать сложные комбинаторные задачи
- Очень похоже на HN, но некоторые нейроны помечены как входные, а другие остаются скрытыми.
- Входные нейроны становятся выходными в конце полного обновления сети.
- Начинает со случайных весов и учится с помощью обратного распространения
- Нейроны в основном имеют бинарные паттерны активации.
- Цель обучения состоит в том, чтобы максимизировать произведение вероятностей
- Стохастические обновления единиц должны быть последовательными
Углубленная машина Больцмана (DBM)
– делает обновления более параллельными
– обычная машина Больцмана с большим количеством отсутствующих соединений
8- Сети глубокого убеждения
Обратное распространение: Считается стандартным методом в искусственных нейронных сетях для расчета вклада ошибок каждого нейрона после обработки пакета данных.
Основные проблемы обратного распространения распространение
— требуются помеченные обучающие данные; в то время как почти все данные не размечены
- Время обучения плохо масштабируется
- Очень медленно в сетях с несколькими скрытыми слоями
- Может застрять в плохом локальном оптимуме
- Далеко от оптимального для глубоких сетей
- Использует неконтролируемые подходы к обучению для преодоления ограничений обратного распространения
- Направленный ацилический граф, состоящий из стохастических переменных
- Можно обучить с помощью конструктивной дивергенции или обратного распространения и научиться представлять данные в виде вероятностной модели.
- После обучения или приведения к стабильному состоянию посредством обучения без учителя модель можно использовать для генерации новых данных.
- При обучении с помощью конструктивной дивергенции он может даже классифицировать существующие данные, потому что нейроны вынуждены искать различные признаки.
9- Автоэнкодеры
- Нейронные сети, предназначенные для обучения без учителя, когда данные не помечены
- Может использоваться для кодирования данного ввода в представление меньшего размера.
- Затем можно использовать декодер для восстановления входных данных из закодированной версии.
- Очень похоже на анализ главных компонентов
- Может использоваться для уменьшения размерности, предварительной подготовки других нейронных сетей, для генерации данных…
10- Генеративно-состязательная сеть (GAN)
- 2 сети работают вместе
- Часто комбинация Feed Forward и CNN
- Один должен создавать контент (генеративный), а другой должен оценивать контент (дискриминационный).
- Приложения; интерактивное редактирование изображений, оценка 3D-формы, открытие лекарств, частично контролируемое обучение, робототехника…