Объясняя происхождение и давая интуитивное представление о том, что они составляют

Дивергенция Кульбака-Лейблера является мерой различия между двумя распределениями вероятностей. Вы, наверное, много раз видели эту концепцию в области машинного обучения. В частности, на эту концепцию в значительной степени полагаются при получении нижней границы доказательства (ELBO), которая появляется в вариационных автокодировщиках (VAE) и моделях распространения.

Вывод

Чтобы интуитивно понять эту концепцию, я сначала построю простой эксперимент, включающий независимые, но идентичные этапы, т. е. подбрасывание монеты n раз. Поскольку у нас будет 2 исхода, наше исследование будет следовать последовательности независимых испытаний Бернулли. В нашем случае это будет n-длинная последовательность орлов и решек. Используя правило умножения, мы можем легко получить, что вероятность будет: pᵏqⁿ⁻ᵏ Давайте теперь предположим, что наша задача будет состоять в том, чтобы сравнить распределения между двумя монетами, одна из которых является честной монетой, а другая — необъективной. Обозначим первое распределение как p,второе — как q. Если два распределения похожи, то n-кратная выборка из обоих распределений, вероятно, даст похожие последовательности. Более количественное определение этого должно заключаться в том, чтобы свести к минимуму разницу между этими двумя распределениями. Формально: log(p(x)) — log(q(x)), если результат этого вычитания близок к нулю, то распределения должны быть подобными. Привет! что с логами? Поскольку эти вероятности в основном будут небольшими числами, а их умножение даст еще меньшие числа, мы просто берем логарифм (здесь играет роль математическое удобство). Теперь, используя частное правило, мы можем переписать это как:

Как видите, я параметризовал p и q, чтобы указать, что они могут поступать из разных типов дистрибутивов. Например, одно может исходить из гауссовского, а другое — из биномиального распределения. Приведенная выше формула известна как логарифмическое отношение правдоподобия. Поскольку нас интересует ожидаемое значение этого логарифмического отношения правдоподобия, мы должны преобразовать его в средневзвешенное значение. Вот краткий обзор ожидаемого значения (обратите внимание, что я буду работать только с дискретными случайными величинами)

h(xᵢ) представляет функцию случайной величины (состояния) и вес. Используя формулу ожидаемого значения, мы можем легко преобразовать наше логарифмическое отношение правдоподобия в его ожидаемое значение.

Поставив вещи на свои места, мы можем переписать дивергенцию KL как

Проще говоря, мы взяли разницу между двумя распределениями, преобразовали их в логарифмическое отношение, применили определение ожидаемого значения и вуаля! Но этот вывод показался мне слишком абстрактным, давайте рассмотрим более простой и, на мой взгляд, более интуитивный.

Помните последовательность подбрасывания монеты? формулировка двух монет приведет к следующему:

p₁ᵏp₂ⁿ⁻ᵏ -› Монета 1 … q₁ᵏq₂ⁿ⁻ᵏ -› Монета 2 Возьмем соотношение между этими двумя вероятностями, если Монета 2 следует тому же распределению, что и Монета 1, соотношение между ними должно быть близко к 1.

Взяв лог этого выражения и применив лог-правила, получим следующее:

Поскольку наблюдения уходят в бесконечность, мы ожидаем, что k/N и n-k/N будут аппроксимировать p₁ и p₂ соответственно. Переписывая термины, получаем следующее:

Дивергенция KL — это общая форма нормализованного логарифмического отношения при наличии нескольких классов (наборов значений). Итак, все, что мы здесь сделали, это упростили логарифмическое отношение между наблюдениями из двух разных распределений. И, как видите, упрощенная форма напоминает формулу дивергенции КЛ. Обобщая приведенную выше формулу:

Перекрестная потеря энтропии

Потеря перекрестной энтропии является ключевым показателем во многих моделях машинного обучения и может использоваться для расчета точности прогнозов, сделанных этими моделями. Это особенно полезно для задач, связанных с многоклассовой классификацией, таких как распознавание изображений и обработка естественного языка. Вычисляя разницу между тем, что предсказала модель, и тем, что она должна предсказывать в соответствии с метками, потеря кросс-энтропии обеспечивает надежный способ определить, насколько хорошо модель научилась. Это может помочь определить области, в которых необходимо внести изменения для повышения производительности модели. Общий вид принимает следующий вид:

Используя то, что мы узнали выше, давайте разработаем нашу модель машинного обучения для вывода распределения вероятностей. Итак, у нас есть входное изображение xᵢ, ипрогнозируемое распределение классов будет следующим: p(y|xᵢ;θ)У нас есть истинное распределение классов как q( у|хᵢ). Мы можем использовать дивергенцию KL, чтобы посмотреть на расстояние между этими двумя распределениями вероятностей.

Информатика включает в себя множество журналов, так что давайте снова их применим!

Разделение этих двух терминов дает нам следующее:

Поскольку мы минимизируем это выражение по параметрам тета, мы можем отбросить первый член. Теперь это принимает знакомую форму:

Краткое содержание

  1. Перекрестная энтропия тесно связана с дивергенцией KL и может быть получена с ее использованием.
  2. Дивергенция KL - это мера того, насколько близки два распределения вероятностей.
  3. Дивергенция KL — это ожидаемое значение логарифмического отношения правдоподобия.

Рекомендации

  1. https://nowak.ece.wisc.edu/ece830/ece830_fall11_lecture7.pdf
  2. https://www.youtube.com/watch?v=vPvnpC0PNVQ
  3. https://www.youtube.com/watch?v=9_eZHt2qJs4
  4. https://www.youtube.com/watch?v=Pwgpl9mKars
  5. https://www.youtube.com/watch?v=SxGYPqCgJWM