Некоторые заметки об архитектуре нейронных сетей…

1- Персептроны (нейронная сеть с прямой связью)

  • Первое поколение нейронных сетей
  • Вычислительные модели одиночного нейрона
  • Подает информацию спереди назад
  • Обучение обычно требует обратного распространения

2- Сверточные нейронные сети (CNN)

LeNet
 – Распознаватель рукописных цифр
 – Использует обратное распространение в сети прямой связи со многими скрытыми слоями
 – Позднее формализовано под названием CNN

  • В основном используется для обработки изображений
  • Может также использоваться для аудио

3- Рекуррентные нейронные сети (RNN)

  • Моделирование последовательности
  • Он использует методы, предназначенные для контролируемого обучения, но не требует отдельного обучающего сигнала.
  • Модели без памяти являются стандартным подходом к этой задаче.
  • В основном персептроны, но имеют связи между проходами, связи во времени
  • Хороший выбор для продвижения дополнительной информации, такой как автозаполнение.

4- Долговременная/кратковременная память (LSTM)

  • Решена проблема с тем, чтобы заставить RNN запоминать вещи на долгое время.
  • Ячейка памяти хранит предыдущие значения и удерживает их, если ворота забывания не сообщают ячейке забыть эти значения.
  • Запоминать материал из предыдущих итераций столько, сколько необходимо
  • Способен выучить сложные последовательности, например, писать как Шекспир или сочинять примитивную музыку.

5- Закрытая рекуррентная установка (ГРУ)

  • Функция очень похожа на LSTM
  • Чуть быстрее и проще в управлении, но чуть менее выразительный
  • Не нужны слои ячеек для передачи значений

6- Сеть Хопфилда (HF)

  • Каждый нейрон связан с каждым другим нейроном
  • Каждый узел вводится перед обучением, затем скрывается во время обучения и выводится после него.
  • N устройств могут запоминать только 0,15N шаблонов, что значительно ограничивает количество образцов, которые может запомнить сеть.

7- Машина Больцмана

  • Тип стохастической RNN
  • Умение представлять и решать сложные комбинаторные задачи
  • Очень похоже на HN, но некоторые нейроны помечены как входные, а другие остаются скрытыми.
  • Входные нейроны становятся выходными в конце полного обновления сети.
  • Начинает со случайных весов и учится с помощью обратного распространения
  • Нейроны в основном имеют бинарные паттерны активации.
  • Цель обучения состоит в том, чтобы максимизировать произведение вероятностей
  • Стохастические обновления единиц должны быть последовательными

Углубленная машина Больцмана (DBM)
 – делает обновления более параллельными
 – обычная машина Больцмана с большим количеством отсутствующих соединений

8- Сети глубокого убеждения

Обратное распространение: Считается стандартным методом в искусственных нейронных сетях для расчета вклада ошибок каждого нейрона после обработки пакета данных.
Основные проблемы обратного распространения распространение
— требуются помеченные обучающие данные; в то время как почти все данные не размечены
- Время обучения плохо масштабируется
- Очень медленно в сетях с несколькими скрытыми слоями
- Может застрять в плохом локальном оптимуме
- Далеко от оптимального для глубоких сетей

  • Использует неконтролируемые подходы к обучению для преодоления ограничений обратного распространения
  • Направленный ацилический граф, состоящий из стохастических переменных
  • Можно обучить с помощью конструктивной дивергенции или обратного распространения и научиться представлять данные в виде вероятностной модели.
  • После обучения или приведения к стабильному состоянию посредством обучения без учителя модель можно использовать для генерации новых данных.
  • При обучении с помощью конструктивной дивергенции он может даже классифицировать существующие данные, потому что нейроны вынуждены искать различные признаки.

9- Автоэнкодеры

  • Нейронные сети, предназначенные для обучения без учителя, когда данные не помечены
  • Может использоваться для кодирования данного ввода в представление меньшего размера.
  • Затем можно использовать декодер для восстановления входных данных из закодированной версии.
  • Очень похоже на анализ главных компонентов
  • Может использоваться для уменьшения размерности, предварительной подготовки других нейронных сетей, для генерации данных…

10- Генеративно-состязательная сеть (GAN)

  • 2 сети работают вместе
  • Часто комбинация Feed Forward и CNN
  • Один должен создавать контент (генеративный), а другой должен оценивать контент (дискриминационный).
  • Приложения; интерактивное редактирование изображений, оценка 3D-формы, открытие лекарств, частично контролируемое обучение, робототехника…