Глубокое обучение

Упрощенная нейронная сеть с радиальной базисной функцией

Краткое введение в нейронную сеть радиальной базисной функции

Сети с радиальной базисной функцией (RBF) имеют принципиально иную архитектуру, чем большинство архитектур нейронных сетей. Архитектура большинства нейронных сетей состоит из множества слоев и вводит нелинейность за счет многократного применения нелинейных функций активации. С другой стороны, сеть RBF состоит только из входного слоя, одного скрытого слоя и выходного слоя.

Входной слой не является вычислительным слоем, он просто получает входные данные и передает их в специальный скрытый слой RBF-сети. Вычисления, которые происходят внутри скрытого слоя, сильно отличаются от большинства нейронных сетей, и именно в этом заключается сила сети RBF. Выходной слой выполняет задачу прогнозирования, такую ​​как классификация или регрессия.

Входной слой

Входной слой просто передает данные скрытым слоям.

В результате количество нейронов во входном слое должно быть равно размерности данных. Во входных слоях не производятся никакие вычисления, как в случае со стандартными искусственными нейронными сетями. Входные нейроны полностью связаны со скрытыми нейронами и передают их вход вперед.

Скрытый слой

Скрытый слой принимает входные данные, в которых шаблон не может быть линейно разделим, и преобразует его в новое пространство, которое более линейно разделимо. Скрытый слой имеет более высокую размерность, чем входной слой, потому что шаблон, который не является линейно разделимым, часто необходимо преобразовать в многомерное пространство, чтобы сделать его более линейно разделимым. Это основано на теореме Кавера о отделимости паттернов, которая утверждает, что паттерн, преобразованный в многомерное пространство с нелинейным преобразованием, с большей вероятностью будет линейно разделим, поэтому количество нейронов в скрытый слой должен быть больше, чем номер входного нейрона. При этом количество нейронов в скрытом слое должно быть меньше или равно количеству выборок в обучающей выборке. Когда количество нейронов в скрытом слое равно количеству выборок в обучающем наборе, модель можно считать примерно эквивалентной ядерным обучающимся, таким как регрессия ядра и машины опорных векторов ядра.

Вычисления в скрытых слоях основаны на сравнении с векторами-прототипами, которые являются векторами из обучающей выборки.

Каждый нейрон в скрытом слое имеет вектор-прототип и полосу пропускания, обозначаемую μ и σ соответственно. Каждый нейрон вычисляет сходство между входным вектором и его вектором-прототипом. Вычисление в скрытом слое можно математически записать следующим образом:

С:

  • X бар как входной вектор
  • μ bar как вектор-прототип нейрона iᵗʰ
  • σ как пропускная способность iᵗʰ нейрона
  • phi как выход нейрона iᵗʰ

Параметры μ bar и σ изучаются неконтролируемым образом, например, с использованием некоторого алгоритма кластеризации.

Выходной слой

Выходной слой использует линейную функцию активации как для задач классификации, так и для задач регрессии.

Вычисления в выходном слое выполняются так же, как в стандартной искусственной нейронной сети, которая представляет собой линейную комбинацию между входным вектором и вектором весов. Вычисление в выходном слое может быть математически записано следующим образом:

С:

  • wᵢ как весовая связь
  • phi как выход нейрона iᵗʰ из скрытого слоя
  • y как результат прогноза

Полученный прогноз можно использовать как для задач классификации, так и для задач регрессии, это зависит от цели и функции потерь. Параметры w изучаются контролируемым способом, таким как градиентный спуск.

Хотя выходной слой RBF можно использовать в качестве конечного вывода, можно складывать RBF-сети с другими сетями, например, мы можем заменить выходной слой RBF-сети многослойным восприятием и обучить сеть сквозным образом. конец.

Заключение

Сеть RBF состоит только из одного скрытого слоя, который имеет собственный способ вычисления выходных данных. Сеть RBF основана на теореме о покрытии, она отбрасывает данные в многомерное пространство, используя свой скрытый слой, поэтому количество нейронов в скрытом слое должно быть больше, чем количество нейронов во входном слое. Выходной слой использует линейную функцию активации или может рассматриваться без какой-либо функции активации.

Рекомендации