Модели глубокого обучения по сути являются математическими моделями. Многие математические уравнения работают в фоновом режиме для архитектур нейронных сетей. Здесь я попытался составить некоторые из важных математических уравнений, которые составляют основу нейронных сетей и глубокого обучения.
Нейронная архитектура
Один нейрон:
Линейная регрессия с добавленным элементом нелинейности с использованием функций активации.
Линейная регрессия: Wx+b
Выход одного нейрона: A = F(Wx+b), где F — функция активации, такая как sigmoid, tanh, relu, softmax и т. д.
Выход слоя:
Если входные данные представляют собой матрицу, содержащую m признаков и n образцов, то уравнение для вывода первого слоя принимает вид
A = F(WX+b)
Это относится ко всем слоям до выходного слоя модели нейронной сети.
Функции активации
сигмовидная
сигмоид (х) = 1/(1 + ехр (-х))
танх
tanh(x) = (exp(x)-exp(-x))/(exp(x)+exp(-x))
РеЛу
относительно (х) = макс (0, х)
Дырявый Релу
утечкарелу(х) = х, если х>0 иначе 0,01х
Параметрический Relu
Prelu(x) = x, если x›0, иначе ax, a — это параметр, который необходимо изучить во время обучения нейронной сети.
софтплюс
softplus(x) = log(1+exp(x))
софтмакс
softmax(xi) = exp(xi)/сумма по i(exp(xi))
Функции потерь
Среднеквадратическая ошибка
mse = квадрат(yi-yhati)
Абсолютная ошибка
ae = abs(yi-yhati)
Перекрестная энтропия (бинарная классификация)
binary_cross_entropy=-ylogyhat-(1-y)log(1-yhat)
Перекрестная энтропия (Многоклассовая классификация)
categorical_cross_entropy = -yilogyhati-(1-yi)log(1-yhati)