Интуиция, стоящая за функцией потерь логистической регрессии

Вы когда-нибудь задумывались, почему мы выбираем кросс-энтропию в качестве функции потерь для задачи логистической регрессии? Почему бы, например, не выбрать среднюю среднеквадратичную ошибку?

Ответ очень прост и интуитивно понятен!

Функция кросс-энтропийных потерь:

Перекрестная энтропийная потеря определяется следующим образом:

где выходной размер — это количество уникальных классов. Например: для задачи классификации изображения кошки-собаки количество классов равно 2 = выходному размеру.

Теперь можно спросить, можем ли мы использовать функцию среднеквадратичной ошибки (MSE) в качестве нашей функции потерь.

Ответ - нет !

Простое объяснение:

Для упрощения возьмем случай бинарной классификации.

Первая причина: интуитивно понятная функция:

Для задачи бинарной классификации у нас есть два возможных выхода:

y_i = 0: тогда L = — log(1-p_i). Цель состоит в том, чтобы минимизировать L, что эквивалентно максимизации log(1-p_i), эквивалентно минимизации p_i . Поэтому p_i должен быть как можно ближе к 0.
y_i = 1: тогда L = -log(p_i). Мы должны минимизировать L, что эквивалентно максимизации log(p_i). Поэтому p_i должен быть как можно ближе к 1.

Вывод: выбор кросс-энтропии интуитивно понятен!

2-я причина: выпуклость!

Выпуклость функции потерь упрощает задачу минимизации и увеличивает вероятность сходимости к оптимальному решению (оптимальные параметры нашей сигмовидной функции).

И с помощью простого исчисления доказано, что функция бинарной кросс-энтропии выпукла по отношению к параметрам сигмовидной функции.

В отличие от перекрестной энтропии, функция среднеквадратичной ошибки НЕ является выпуклой по отношению к параметрам сигмоиды. Поэтому поиск минимума обычно затруднен.

Использованная литература:

Содержимое взято из курса Эндрю Нг по глубокому обучению на Coursera. Я настоятельно рекомендую это, чтобы улучшить вашу интуицию DL!