В предыдущей главе я рассмотрел три концепции, а именно:

  1. Определение и назначение функций потерь
  2. Вероятность против правдоподобия
  3. Оценка максимального правдоподобия

Если вы не знакомы с вышеупомянутыми концепциями, я настоятельно рекомендую вам прочитать первую главу. В этом посте я рассмотрю процедуру получения функции потерь среднеквадратической ошибки (MSE) и бинарной кросс-энтропии (BCE) с последующим объяснением причин, по которым они лучше подходят для определенных проблем, чем другие. Итак, приступим :)

Среднеквадратичная ошибка

Чтобы продемонстрировать вывод, давайте рассмотрим модель линейной регрессии в двумерном пространстве, где Y - метки, которые должны быть смоделированы как линейная функция входного X.

Пусть η будет гауссовским шумом со средним значением, равным 0, и дисперсией, равной 1, добавленной к регрессии. Это означает, что Y - случайная величина с гауссовым распределением. Как обсуждалось в главе 1 этой серии, гауссово распределение характеризуется двумя параметрами, а именно средним значением и дисперсией. Итак, проблема правдоподобия состоит в том, чтобы вычислить значения среднего и дисперсии для получения наиболее оптимального распределения для случайной величины Y с учетом входных данных (условия) X. Следовательно, среднее значение и дисперсия Y следующие:

Среднее (ожидаемое значение) Y равно θ𝞸 + θ₁x.

Дисперсия Y равна 1. Это означает, что все, что нам нужно найти, - это оптимальные значения θ𝞸 и θ₁. Если вы думаете о проблеме линейной регрессии, это действительно проблема вычисления вышеупомянутых значений для получения наилучшей аппроксимирующей кривой с добавлением к ней некоторого шума для обобщения. Итак, все, что я сделал до сих пор, это переформулировал проблему регрессионного моделирования как проблему вероятности. Мы выполнили шаги 1 и 2 решения проблемы (см. Главу 1)

Теперь, когда мы знаем, что Y имеет гауссовское распределение, мы можем использовать предопределенную формулу для получения значений параметров, которые нам нужны. Это можно записать как функцию распределения вероятностей, которая дает вероятность наблюдения одного случая (xi, yi), как показано:

Обратите внимание, что упомянутая выше функция распределения вероятностей представляет только один пример. На самом деле в нашем наборе данных будет много таких примеров, то есть будет много значений Y и X. Допустим, в нашем наборе данных есть N примеров. Итак, нам нужно суммировать вероятности всех этих N примеров. Поскольку все примеры гауссовского распределения не зависят друг от друга, сумма вероятностей всех N примеров может быть записана как произведение. На этом шаг 3 завершается (см. Главу 1).

Как упоминалось ранее, вероятность и вероятность имеют одну и ту же математическую формулу, сумма всех N вероятностей по сути является вероятностью всех N примеров (поскольку мы решаем для параметров). Теперь, когда у нас есть функция правдоподобия, мы хотим максимизировать ее по параметрам θ𝞸 и θ₁. Этот шаг называется оценкой максимального правдоподобия. Чтобы получить максимумы функции, продифференцируем ее по θ𝞸 и θ₁. Однако это будет один уродливый процесс из-за продукта и показателей, присутствующих в функции.

Процесс дифференцирования будет намного проще, если мы сможем преобразовать произведение в суммирование и уменьшить степень. Функция логарифмирования позволяет нам выполнять и то, и другое. Кроме того, логарифм - это монотонная, гладкая функция, что означает, что a) его можно легко дифференцировать, а b) максимумы журнала являются максимумами функции правдоподобия. Таким образом, взяв бревно с двух сторон, мы получим:

Виола! Если вы внимательно посмотрите на приведенную выше формулу, вы заметите, что она отрицательна для функции потерь MSE. Пусть θt будет векторным представлением параметров θ𝞸 и θ₁. Тогда функция потерь MSE:

Следовательно, максимизация правдоподобия эквивалентна минимизации функции потерь MSE. Таким образом, функция потерь - это не произвольно выбранная функция, а правильное математическое решение проблемы правдоподобия с учетом определенных допущений.

Итак, функция потерь MSE лучше всего подходит для случая со следующими предположениями:

  1. Продукция имеет реальную ценность
  2. Кератиновое количество гауссовского шума добавляется к регрессионной модели с постоянным средним значением и дисперсией.

Двоичная кросс-энтропия

Это одна из самых известных функций потерь, используемых в задачах классификации с двумя классами. Это может быть расширено до классификации нескольких классов, где все определения являются взаимоисключающими. В двоичном случае используемая функция активации представляет собой сигмовидную функцию, которая производит значения между [0,1], а для случая нескольких классов используемая функция активации является функцией softmax. Теперь я проделаю те же шаги, что и выше, чтобы продемонстрировать, что двоичная функция кросс-энтропии потерь является результатом задачи оценки максимального правдоподобия, а не какой-то произвольной функцией.

Для задачи бинарной кальссификации пусть прогнозы, сделанные нашей моделью, будут
hθ (xi), где xi - один из примеров входных X. Поскольку это проблема двоичной классификации, прогнозы вычисляются с использованием сигмоидной функции. Обратите внимание на параметр, значение которого нам нужно найти для получения оптимального распределения: W и b.

Мы знаем, что сигмовидная функция производит значения от 0 до 1, что означает, что эти значения можно рассматривать как вероятности принадлежности примера xi к положительному классу. Если эта вероятность меньше 0,5, мы классифицируем его как отрицательный пример. Таким образом, вероятность наблюдения положительного и отрицательного примера можно записать следующим образом:

Комбинация двух вышеуказанных случаев может быть выражена как:

Фактически, это функция распределения Бернулли!

Теперь, когда у нас есть вероятность одного примера, мы можем объединить вероятности всех N примеров в нашем наборе данных следующим образом:

Опять же, чтобы решить задачу оценки максимального правдоподобия, нам нужно дифференцировать ее по параметрам. Однако мы сталкиваемся с теми же проблемами, которые упоминались выше для проблемы регрессии. Таким образом, вместо этого мы берем логарифмическую вероятность.

При внимательном рассмотрении приведенной выше формулы мы замечаем, что это отрицательная функция бинарной кросс-энтропийной потери. Таким образом, максимальное увеличение логарифмической вероятности эквивалентно минимизации функции потерь BCE.

Функция потерь BCE лучше всего подходит для случая со следующими допущениями:

  1. Выходной сигнал является дискретным и двоичным.
  2. Функция распределения вероятностей выходной случайной величины - это функция Бернулли.

Примечание

Мне было указано, что термин «перекрестная энтропия» не является специфическим для определения отрицательной логарифмической вероятности распределения Бернулли или softmax. Хотя люди почти всегда используют кросс-энтропию в контексте классификации (Бернулли и softmax), это действительно любая потеря, состоящая из отрицательной логарифмической вероятности.

Набор обучающих данных определяет распределение данных, называемое эмпирическим распределением, а модель, которую мы создаем для прогнозирования, определяет распределение вероятностей. Любая потеря, состоящая из отрицательной логарифмической вероятности, представляет собой кросс-энтропию между двумя распределениями. Цель состоит в том, чтобы свести к минимуму различие между двумя распределениями. Таким образом, попытка максимизировать вероятность является одним из способов достижения этого.

Итак, среднеквадратичная ошибка (MSE) - это перекрестная энтропия между эмпирическим распределением и гауссовым распределением! [1]

На этом я завершу эту часть. В этой главе мы увидели, как метод, называемый оценкой максимального правдоподобия, используется для получения функций потерь для задач регрессии и кальссификации. В следующей главе я расскажу еще о некоторых функциях потерь, таких как абсолютное среднее и гладкое абсолютное среднее (регрессия) и классификаторы маржи (SVM). Так что следите за обновлениями :)

Если вам понравился этот пост или он был полезен, пожалуйста, оставьте аплодисменты!

Если вы обнаружите какие-либо ошибки или проблемы в этом сообщении, свяжитесь со мной по адресу [email protected], и я исправлю их.

использованная литература

[1] http://www.deeplearningbook.org/contents/ml.html

[2] http://rohanvarma.me/Loss-Functions/

[3] http://ml4dummies.blogspot.com/2017/08/cross-entropy-loss-and-maximum.html