Вы когда-нибудь задумывались, почему мы выбираем кросс-энтропию в качестве функции потерь для задачи логистической регрессии? Почему бы, например, не выбрать среднюю среднеквадратичную ошибку?
Ответ очень прост и интуитивно понятен!
Функция кросс-энтропийных потерь:
Перекрестная энтропийная потеря определяется следующим образом:
где выходной размер — это количество уникальных классов. Например: для задачи классификации изображения кошки-собаки количество классов равно 2 = выходному размеру.
Теперь можно спросить, можем ли мы использовать функцию среднеквадратичной ошибки (MSE) в качестве нашей функции потерь.
Ответ - нет !
Простое объяснение:
Для упрощения возьмем случай бинарной классификации.
Первая причина: интуитивно понятная функция:
Для задачи бинарной классификации у нас есть два возможных выхода:
- y_i = 0: тогда L = — log(1-p_i). Цель состоит в том, чтобы минимизировать L, что эквивалентно максимизации log(1-p_i), эквивалентно минимизации p_i . Поэтому p_i должен быть как можно ближе к 0.
- y_i = 1: тогда L = -log(p_i). Мы должны минимизировать L, что эквивалентно максимизации log(p_i). Поэтому p_i должен быть как можно ближе к 1.
Вывод: выбор кросс-энтропии интуитивно понятен!
2-я причина: выпуклость!
Выпуклость функции потерь упрощает задачу минимизации и увеличивает вероятность сходимости к оптимальному решению (оптимальные параметры нашей сигмовидной функции).
И с помощью простого исчисления доказано, что функция бинарной кросс-энтропии выпукла по отношению к параметрам сигмовидной функции.
В отличие от перекрестной энтропии, функция среднеквадратичной ошибки НЕ является выпуклой по отношению к параметрам сигмоиды. Поэтому поиск минимума обычно затруднен.
Использованная литература:
Содержимое взято из курса Эндрю Нг по глубокому обучению на Coursera. Я настоятельно рекомендую это, чтобы улучшить вашу интуицию DL!