Создание гауссовой связи, вероятно, было вдохновлено «извлечением признаков», традиционным методом распознавания изображений.

Жизненный опыт

Развитие методов распознавания изображений включает в себя следующие три этапа:

  1. Традиционное распознавание изображений
  2. Многослойная нейронная сеть
  3. Сверточная нейронная сеть

Вот, давайте погрузимся в первый этап. Традиционный метод распознавания изображений состоит из «Извлекателя признаков» и «Обучаемого классификатора». В частности, средство извлечения признаков должно быть разработано исследователями; им нужно набраться опыта, наблюдая и изучая образцы изображений, а затем они смогут применить этот опыт для разработки экстрактора признаков. Ограничение такого «Извлекателя функций» заключается в том, что его нельзя использовать повторно; для разных образцов изображений с различными характеристиками исследователи должны разработать соответствующие экстракторы признаков, чтобы обеспечить хорошую производительность при распознавании изображений. На самом деле, «Соединение по Гауссу» берет страницу из «Извлечения признаков», и я пролью на это больше света в следующем объяснении.

Гауссово соединение против полного соединения

Вот мои определения гауссовой связи: с макро точки зрения, гауссовская связь — это метод соединения, который должен применяться исключительно между полносвязным слоем и выходным слоем; с микроперспективы связь по Гауссу — это вычисление евклидовой радиальной базисной функции с набором искусственно созданных и фиксированных весов.

* Связь по Гауссу

  1. Гауссова связность плотно связна.
  2. Выходное значение связи по Гауссу не будет подключено к какой-либо функции активации. Вместо этого выходное значение будет напрямую выведено выходным слоем.

* Полное подключение

  1. Полное соединение является плотно-связным
  2. Как правило, выходное значение полного слоя соединения будет подключено к функции активации.

Математические принципы гауссовой связи

Мы заметили, что соединение по Гауссу находится между F6 (т. е. шестым слоем с полным соединением) и выходным слоем. Объяснение математических принципов гауссовой связи приведено ниже:

  • x(j)(j = 0,1,2,…,83) — выходное значение F6 (т. е. шестой слой с полной связью), он можно преобразовать в матрицу с 12 строками и 7 столбцами
  • w(ij)(i = 0,1,2,…,9 и j = 0,1,2,…,83) — искусственно созданный и фиксированный веса в рамках гауссовой связи, о которой упоминалось ранее. Взяв в качестве примера w(1j), этот вес также можно преобразовать в матрицу 12 x 7. Эти веса (например, w(0j), w(1j), w(2j), …,w (9j)) вместе образуют «ядро» гауссовой связи, и они распределены по каждому нейрону в выходном слое соответственно.

Из выходного значения F6 будут вычтены веса, а квадрат разности будет суммирован (т. е. вычисление евклидовой радиальной базисной функции). Затем окончательный результат будет выведен выходным слоем. Это и есть весь процесс гауссовой связи.

Ответы на некоторые важные вопросы

  • В: Почему эти веса гауссовой связи (например, w(ij)) должны быть искусственно созданы и неизменны?

Дебют гауссовой связи состоялся в модели глубокого обучения LetNet-5, и эта модель была создана для распознавания рукописных арабских цифр: всего существует 10 типов шаблонов (т. е. «0», «1», «2», …, «9»). Можно сделать вывод, что количество шаблонов образцов изображения действительно невелико, а особенности этих шаблонов могут быть легко распознаны и усвоены человеком. Таким образом, авторы LetNet-5, вероятно, были вдохновлены этими открытиями, и затем они разработали 10 весов, как показано выше. Если мы преобразуем веса гауссовой связи в матричный формат с 12 строками и 7 столбцами, это будет выглядеть так:

Как мы и ожидали, веса гауссовой связи — это не что иное, как пиксельные матрицы, имитирующие каждую арабскую цифру. Подводя итог, я лично считаю, что создание гауссовой связи заключается в том, что части паттернов изображения, которые должны быть изучены нейронными сетями, компенсируются человеческим мозгом.

  • В: Какая именно связь между экстрактором признаков и связью Гаусса?

Теперь мы знаем, что «ядро» гауссовой связи (т. е. w(0j), w(1j), w(2j), …,w(9j)) — пиксельные матрицы, имитирующие арабские цифры. Способ, которым авторы создали связь по Гауссу, аналогичен тому, как другие исследователи разработали экстракторы признаков; обе эти техники нуждаются в человеческом опыте, основанном на изучении и распознавании образцов изображений.

Ссылка иисточник изображения

[1]: LeCun Y, Bottou L, Bengio Y и др. Градиентное обучение применительно к распознаванию документов[J]. Труды IEEE, 1998, 86(11): 2278–2324.