Модели глубокого обучения по сути являются математическими моделями. Многие математические уравнения работают в фоновом режиме для архитектур нейронных сетей. Здесь я попытался составить некоторые из важных математических уравнений, которые составляют основу нейронных сетей и глубокого обучения.

Нейронная архитектура

Один нейрон:

Линейная регрессия с добавленным элементом нелинейности с использованием функций активации.

Линейная регрессия: Wx+b

Выход одного нейрона: A = F(Wx+b), где F — функция активации, такая как sigmoid, tanh, relu, softmax и т. д.

Выход слоя:

Если входные данные представляют собой матрицу, содержащую m признаков и n образцов, то уравнение для вывода первого слоя принимает вид

A = F(WX+b)

Это относится ко всем слоям до выходного слоя модели нейронной сети.

Функции активации

сигмовидная

сигмоид (х) = 1/(1 + ехр (-х))

танх

tanh(x) = (exp(x)-exp(-x))/(exp(x)+exp(-x))

РеЛу

относительно (х) = макс (0, х)

Дырявый Релу

утечкарелу(х) = х, если х>0 иначе 0,01х

Параметрический Relu

Prelu(x) = x, если x›0, иначе ax, a — это параметр, который необходимо изучить во время обучения нейронной сети.

софтплюс

softplus(x) = log(1+exp(x))

софтмакс

softmax(xi) = exp(xi)/сумма по i(exp(xi))

Функции потерь

Среднеквадратическая ошибка

mse = квадрат(yi-yhati)

Абсолютная ошибка

ae = abs(yi-yhati)

Перекрестная энтропия (бинарная классификация)

binary_cross_entropy=-ylogyhat-(1-y)log(1-yhat)

Перекрестная энтропия (Многоклассовая классификация)

categorical_cross_entropy = -yilogyhati-(1-yi)log(1-yhati)