Эта статья охватывает содержание, обсуждаемое в модуле Теория информации Курса глубокого обучения, и все изображения взяты из одного и того же модуля.

В предыдущей статье мы обсуждали, как в контексте классификации мы можем представить истинный результат и прогнозируемый результат в виде распределения вероятностей. В этой статье мы увидим новый способ вычисления разницы между двумя распределениями или, скажем, вычисления значения потерь для распределений.

Ожидание:

Еще раз представьте ситуацию, когда у нас есть 4 команды A, B, C и D, и есть случайная величина X, которая обозначает команду-победителя.

И скажем, основываясь на некотором прошлом опыте, мы приходим к распределению вероятности того, что эти команды выиграют турнир, как показано ниже:

Предположим, что результат для вас, связанный с победой каждой из команд, выглядит следующим образом (если выиграет команда А, вы получите 10к от ставки, если выиграет команда Б, вы получите 2к, если выиграет команда С, вы потеряете около 8к, если команда D побеждает, вы получаете 5k):

Итак, существует некоторая вероятность, связанная с каждой из случайных величин, и некоторая прибыль/убыток (выигрыш), связанная с каждым из возможных значений случайных величин. Ожидаемый доход мы можем вычислить как сумму произведения вероятности и связанного с ней выигрыша для всех значений, которые может принимать случайная величина:

Таким образом, приведенное выше значение представляет собой ожидаемое значение возврата в соответствии с распределением вероятностей и прибылью / убытком, связанным с каждым из значений, которые может принимать случайная величина.

Информационное содержание

Интуиция, стоящая за информационным контентом:

Давайте возьмем событие, в котором восходит солнце, поэтому, скажем, случайная величина — это место восхода солнца? И может принимать 4 значения: Восток, Запад, Север, Юг.

И теперь, если мы скажем, что Солнце взошло сегодня на Востоке, то не будет большого прироста информации, потому что это определенное/надежное событие, что Солнце восходит на Востоке, что происходит с вероятностью 1. Таким образом, нет никакой информации о том, что мы выигрывают от этого.

Возьмем другое событие. Предположим, сегодня мы говорим вам, что будет шторм, поэтому предположим, что случайная переменная Y может принимать значение шторма или без шторма.

Теперь, если мы узнаем, что сегодня будет шторм, в этом случае прирост информации будет очень высоким, потому что регулярно не бывает шторма. Шторм — это что-то вроде очень-очень редкого явления, и если мы говорим вам о редком событии, то информационный прирост действительно велик. Вас ждет много неожиданностей, а неожиданность ведет к получению информации.

Основываясь на вышеизложенном, мы можем сказать, что получение информации прямо пропорционально неожиданности в событии.

Теперь, поскольку мы обсуждаем вероятность, эквивалент неожиданности в вероятности можно вывести следующим образом: неожиданное событие — это событие с низкой вероятностью. Таким образом, низкая вероятность означает высокую неожиданность. Таким образом, мы можем сказать, что содержание информации обратно пропорционально вероятности события.

Чем удивительнее событие, тем меньше вероятность, а чем меньше вероятность, тем больше информации мы получаем, зная о нем.

Теперь давайте рассмотрим другой сценарий, в котором идет турнир, и случайная величина X говорит, какая команда выиграет из A, B, C или D, и есть еще одна случайная переменная Y, которая говорит, является ли AC в этой комнате ВКЛ или ВЫКЛ.

Теперь предположим, что мы говорим вам, что команда B выиграла, а кондиционер в этой комнате включен. Первое, на что следует обратить внимание, это то, что эти две случайные переменные независимы: включение или выключение переменного тока в этой комнате не влияет на исход матча, и точно так же, кто выиграет матч, не влияет на то, находится ли AC в этой комнате. эта комната включена или выключена. Таким образом, это совершенно независимые события. Итак, если мы говорим о двух независимых содержаниях, то каким будет Информационное содержание:

Мы получаем некоторую информацию, зная, что B выиграл матч, и мы также получаем некоторую информацию, зная, что AC включен. Итак, общее содержание информации, зная оба этих (независимых события), должно быть просто суммой индивидуального информационного содержания (мы знаем, что прирост информации зависит от вероятности события и обратно пропорционален вероятности)

Итак, теперь у нас есть эта интересная ситуация, у нас есть этот информационный контент как функция, которая удовлетворяет следующим критериям:

Вышеуказанным критериям удовлетворяет логарифмическое семейство функций. Итак, по сути имеем:

который мы можем переписать как:

Энтропия:

Допустим, у нас есть случайная величина X, которая может принимать значения A, B, C, D.

Теперь, основываясь на приведенной выше таблице, мы можем сказать, что ожидаемая прибыль определяется как:

Энтропия(H(x)) – это ожидаемое информационное содержание случайной величины, которое задается как:

Отношение к количеству битов, необходимых для передачи сообщения

Предположим, что есть это X (сообщение), которое мы хотели бы передать, и сообщение может принимать 4 значения A, B, C или D.

Мы можем использовать 2 бита для передачи 4 сообщений:

Таким образом, для каждого сообщения, которое мы передаем, мы используем 2 бита.

В данном случае мы предполагаем, что все эти сообщения равновероятны, то есть их вероятность равна 1/4. Итак, это распределение, которое мы предполагаем для случайной переменной, принимающей любое из 4 значений, которые она может принимать.

Давайте посмотрим информационное наполнение для каждого из сообщений:

Теперь мы можем сделать эту связь, что количество битов, необходимых для передачи сообщения, равно информационному содержанию этого сообщения.

Рассмотрим это для 8 сообщений (A, B, C, D,…., H).

Теперь, если мы хотим отправлять непрерывный поток сообщений и хотим минимизировать количество битов, необходимых для этого. Допустим, у нас другое распределение, скажем, сообщение А является наиболее частым сообщением и так далее.

Если мы используем меньше нет. битов для отправки сообщения A (наиболее частое), то это разумнее, потому что в среднем мы будем использовать меньше битов, поскольку A является наиболее частым сообщением. Количество битов, необходимых для отправки каждого из сообщений, будет (при условии вероятности/частоты каждого сообщения, как на изображении ниже):

Единственный способ сказать, что эта стратегия лучше, — это если в среднем мы будем использовать меньше «нет». битов (даже если мы используем 3 бита для менее частых сообщений)

Здесь информационный контент такой же, как нет. битов, поэтому, если нам нужно среднее количество битов, это будет:

Таким образом, энтропия случайной величины сообщает нам среднее количество битов, необходимых для отправки этой случайной величины.

Дивергенция KL и кросс-энтропия

Допустим, X — случайная величина, а y — истинное распределение случайной величины.

Теперь подумайте об этом случае, когда есть некоторый источник, который передает множество сообщений из одного источника в один пункт назначения, и существует некоторая истинная вероятность, связанная с этими сообщениями, заданная y и мы не знаем этого истинного распределения заранее, и вы смотрите на некоторые из этих сообщений и оцениваете y_hat(прогнозируемое распределение), так что скажем, предсказанное раздача выглядит так:

Истинная энтропия случайной величины будет:

Но мы предсказали некоторое распределение/вероятность для случайной величины, и в соответствии с этим информационный контент будет выглядеть так:

Фактические сообщения в пункт назначения будут поступать в соответствии с истинным распределением y, поэтому предсказанное нет. битов, которые мы в конечном итоге используем, будет:

значение, связанное с каждым из значений, которые может принимать случайная величина, равно

потому что это то, что мы оценили, но на самом деле сообщения будут поступать с вероятностью в соответствии с истинным распределением.

Итак, если бы мы знали истинное распределение, то количество битов, которое нам потребовалось бы, было бы

но мы не знали истинного распределения, поэтому в итоге мы использовали оценочное распределение, а затем нет. требуемых битов было

Выше приведена перекрестная энтропия между двумя распределениями y и y_hat.

Итак, теперь у нас есть биты, необходимые для передачи сообщения в соответствии с истинным распределением и в соответствии с оценочным распределением, и теперь мы можем вычислить разницу (эта разница известна как расхождение KL) между этими двумя как:

И эта KL Divergence обеспечивает способ вычисления разницы между двумя распределениями.