Создание гауссовой связи, вероятно, было вдохновлено «извлечением признаков», традиционным методом распознавания изображений.
Жизненный опыт
Развитие методов распознавания изображений включает в себя следующие три этапа:
- Традиционное распознавание изображений
- Многослойная нейронная сеть
- Сверточная нейронная сеть
Вот, давайте погрузимся в первый этап. Традиционный метод распознавания изображений состоит из «Извлекателя признаков» и «Обучаемого классификатора». В частности, средство извлечения признаков должно быть разработано исследователями; им нужно набраться опыта, наблюдая и изучая образцы изображений, а затем они смогут применить этот опыт для разработки экстрактора признаков. Ограничение такого «Извлекателя функций» заключается в том, что его нельзя использовать повторно; для разных образцов изображений с различными характеристиками исследователи должны разработать соответствующие экстракторы признаков, чтобы обеспечить хорошую производительность при распознавании изображений. На самом деле, «Соединение по Гауссу» берет страницу из «Извлечения признаков», и я пролью на это больше света в следующем объяснении.
Гауссово соединение против полного соединения
Вот мои определения гауссовой связи: с макро точки зрения, гауссовская связь — это метод соединения, который должен применяться исключительно между полносвязным слоем и выходным слоем; с микроперспективы связь по Гауссу — это вычисление евклидовой радиальной базисной функции с набором искусственно созданных и фиксированных весов.
* Связь по Гауссу
- Гауссова связность плотно связна.
- Выходное значение связи по Гауссу не будет подключено к какой-либо функции активации. Вместо этого выходное значение будет напрямую выведено выходным слоем.
* Полное подключение
- Полное соединение является плотно-связным
- Как правило, выходное значение полного слоя соединения будет подключено к функции активации.
Математические принципы гауссовой связи
Мы заметили, что соединение по Гауссу находится между F6 (т. е. шестым слоем с полным соединением) и выходным слоем. Объяснение математических принципов гауссовой связи приведено ниже:
- x(j)(j = 0,1,2,…,83) — выходное значение F6 (т. е. шестой слой с полной связью), он можно преобразовать в матрицу с 12 строками и 7 столбцами
- w(ij)(i = 0,1,2,…,9 и j = 0,1,2,…,83) — искусственно созданный и фиксированный веса в рамках гауссовой связи, о которой упоминалось ранее. Взяв в качестве примера w(1j), этот вес также можно преобразовать в матрицу 12 x 7. Эти веса (например, w(0j), w(1j), w(2j), …,w (9j)) вместе образуют «ядро» гауссовой связи, и они распределены по каждому нейрону в выходном слое соответственно.
Из выходного значения F6 будут вычтены веса, а квадрат разности будет суммирован (т. е. вычисление евклидовой радиальной базисной функции). Затем окончательный результат будет выведен выходным слоем. Это и есть весь процесс гауссовой связи.
Ответы на некоторые важные вопросы
- В: Почему эти веса гауссовой связи (например, w(ij)) должны быть искусственно созданы и неизменны?
Дебют гауссовой связи состоялся в модели глубокого обучения LetNet-5, и эта модель была создана для распознавания рукописных арабских цифр: всего существует 10 типов шаблонов (т. е. «0», «1», «2», …, «9»). Можно сделать вывод, что количество шаблонов образцов изображения действительно невелико, а особенности этих шаблонов могут быть легко распознаны и усвоены человеком. Таким образом, авторы LetNet-5, вероятно, были вдохновлены этими открытиями, и затем они разработали 10 весов, как показано выше. Если мы преобразуем веса гауссовой связи в матричный формат с 12 строками и 7 столбцами, это будет выглядеть так:
Как мы и ожидали, веса гауссовой связи — это не что иное, как пиксельные матрицы, имитирующие каждую арабскую цифру. Подводя итог, я лично считаю, что создание гауссовой связи заключается в том, что части паттернов изображения, которые должны быть изучены нейронными сетями, компенсируются человеческим мозгом.
- В: Какая именно связь между экстрактором признаков и связью Гаусса?
Теперь мы знаем, что «ядро» гауссовой связи (т. е. w(0j), w(1j), w(2j), …,w(9j)) — пиксельные матрицы, имитирующие арабские цифры. Способ, которым авторы создали связь по Гауссу, аналогичен тому, как другие исследователи разработали экстракторы признаков; обе эти техники нуждаются в человеческом опыте, основанном на изучении и распознавании образцов изображений.
Ссылка иисточник изображения
[1]: LeCun Y, Bottou L, Bengio Y и др. Градиентное обучение применительно к распознаванию документов[J]. Труды IEEE, 1998, 86(11): 2278–2324.