Глубокое обучение
Упрощенная нейронная сеть с радиальной базисной функцией
Краткое введение в нейронную сеть радиальной базисной функции
Сети с радиальной базисной функцией (RBF) имеют принципиально иную архитектуру, чем большинство архитектур нейронных сетей. Архитектура большинства нейронных сетей состоит из множества слоев и вводит нелинейность за счет многократного применения нелинейных функций активации. С другой стороны, сеть RBF состоит только из входного слоя, одного скрытого слоя и выходного слоя.
Входной слой не является вычислительным слоем, он просто получает входные данные и передает их в специальный скрытый слой RBF-сети. Вычисления, которые происходят внутри скрытого слоя, сильно отличаются от большинства нейронных сетей, и именно в этом заключается сила сети RBF. Выходной слой выполняет задачу прогнозирования, такую как классификация или регрессия.
Входной слой
Входной слой просто передает данные скрытым слоям.
В результате количество нейронов во входном слое должно быть равно размерности данных. Во входных слоях не производятся никакие вычисления, как в случае со стандартными искусственными нейронными сетями. Входные нейроны полностью связаны со скрытыми нейронами и передают их вход вперед.
Скрытый слой
Скрытый слой принимает входные данные, в которых шаблон не может быть линейно разделим, и преобразует его в новое пространство, которое более линейно разделимо. Скрытый слой имеет более высокую размерность, чем входной слой, потому что шаблон, который не является линейно разделимым, часто необходимо преобразовать в многомерное пространство, чтобы сделать его более линейно разделимым. Это основано на теореме Кавера о отделимости паттернов, которая утверждает, что паттерн, преобразованный в многомерное пространство с нелинейным преобразованием, с большей вероятностью будет линейно разделим, поэтому количество нейронов в скрытый слой должен быть больше, чем номер входного нейрона. При этом количество нейронов в скрытом слое должно быть меньше или равно количеству выборок в обучающей выборке. Когда количество нейронов в скрытом слое равно количеству выборок в обучающем наборе, модель можно считать примерно эквивалентной ядерным обучающимся, таким как регрессия ядра и машины опорных векторов ядра.
Вычисления в скрытых слоях основаны на сравнении с векторами-прототипами, которые являются векторами из обучающей выборки.
Каждый нейрон в скрытом слое имеет вектор-прототип и полосу пропускания, обозначаемую μ и σ соответственно. Каждый нейрон вычисляет сходство между входным вектором и его вектором-прототипом. Вычисление в скрытом слое можно математически записать следующим образом:
С:
- X бар как входной вектор
- μ bar как вектор-прототип нейрона iᵗʰ
- σ как пропускная способность iᵗʰ нейрона
- phi как выход нейрона iᵗʰ
Параметры μ bar и σ изучаются неконтролируемым образом, например, с использованием некоторого алгоритма кластеризации.
Выходной слой
Выходной слой использует линейную функцию активации как для задач классификации, так и для задач регрессии.
Вычисления в выходном слое выполняются так же, как в стандартной искусственной нейронной сети, которая представляет собой линейную комбинацию между входным вектором и вектором весов. Вычисление в выходном слое может быть математически записано следующим образом:
С:
- wᵢ как весовая связь
- phi как выход нейрона iᵗʰ из скрытого слоя
- y как результат прогноза
Полученный прогноз можно использовать как для задач классификации, так и для задач регрессии, это зависит от цели и функции потерь. Параметры w изучаются контролируемым способом, таким как градиентный спуск.
Хотя выходной слой RBF можно использовать в качестве конечного вывода, можно складывать RBF-сети с другими сетями, например, мы можем заменить выходной слой RBF-сети многослойным восприятием и обучить сеть сквозным образом. конец.
Заключение
Сеть RBF состоит только из одного скрытого слоя, который имеет собственный способ вычисления выходных данных. Сеть RBF основана на теореме о покрытии, она отбрасывает данные в многомерное пространство, используя свой скрытый слой, поэтому количество нейронов в скрытом слое должно быть больше, чем количество нейронов во входном слое. Выходной слой использует линейную функцию активации или может рассматриваться без какой-либо функции активации.