Более точный прогноз модели машинного обучения не всегда приводит к более высокой прибыли

Введение

Если вы находитесь на вершине горы и ищете способ добраться до подножья, функция потери будет подобна компасу, который направит вас вниз по склону. Однако, если вы хотите добраться до какого-то определенного места у подножия холма, пользовательский компас, созданный специально для указания на это конкретное место, может направить вас к желаемому пункту назначения быстрее и точнее, чем обычный компас, это преимущество пользовательской функции потери.

Что такое функция потерь?

Функция потерь используется для оценки того, насколько хорошо работает модель машинного обучения на одно наблюдение за набором данных. Чем меньше потери, тем лучше производительность модели. Некоторый алгоритм оптимизации или поиска, такой как градиентный спуск, используется для минимизации общей функции потерь (функции стоимости) путем изменения параметров модели, что также относится к процессу обучения в машинном обучении. Для простоты функция потери похожа на компас, когда вы находитесь на вершине горы и ищете способ добраться до подножия.

Разница между функцией потерь и затрат

Функция потерь рассчитывается только на основе одного наблюдения за данными, а функция стоимости представляет собой среднее значение всех функций потерь из набора данных. Например, MSE (среднеквадратичная ошибка), сама MSE является функцией стоимости, а SE (квадратичная ошибка) — функцией потерь.

Общие функции потерь

1. AE (абсолютная ошибка)

Ошибка вычисляется путем взятия абсолютного значения (предотвратить отрицательное значение, которое может компенсировать потери) разницы между прогнозируемым значением и фактическим значением. Функция стоимости для AE будет MAE.

2. SE (квадрат ошибки)

Здесь ошибка возводится в квадрат (вместо того, чтобы брать абсолютное значение, все же для предотвращения отрицательного значения), что наказывает большую ошибку больше, чем малую ошибку. Функция стоимости для SE будет MSE.

Зачем нам нужна пользовательская функция потери?

Иногда чем точнее предсказание модели машинного обучения, тем лучше для бизнеса, поскольку может быть некоторое несоответствие между метрикой науки о данных и бизнес-метрикой. Таким образом, пользовательская функция потерь имеет решающее значение для того, чтобы привести модель машинного обучения к той же цели, что и бизнес-цель.

Что такое асимметрия риска и почему это важно?

Когда вы дома и вам нужно спланировать, когда вылететь, чтобы вовремя пойти на собеседование. Вы не хотите идти слишком рано, так как вам придется ждать времени интервью, возможно, вам придется тратить деньги на дорогую чашку кофе во время ожидания. Вы также не хотите опаздывать, так как вас могут не допустить на собеседование из-за вашей безответственности. Однако риск того, что вы пойдете слишком рано, намного ниже, чем риск того, что вы пойдете слишком поздно. Цена ожидания несопоставима с ценой безработицы. Это асимметрия риска.

Некоторые бизнес-цели могут иметь асимметрию риска. Например, в случае проблемы регрессии бизнес-затраты в результате завышенного прогноза (когда прогнозируемое значение выше фактического значения) не всегда могут быть равны бизнес-затратам в результате занижения прогноза (когда прогнозируемое значение ниже фактического значения). Если стоимость завышенного прогноза выше, чем недопрогнозирования, модель машинного обучения должна каким-то образом учитывать это и отдавать предпочтение недопрогнозу, чтобы снизить общие затраты на бизнес.

Как мы видим кривую функции потерь на рисунках AE и SE выше, кривая является симметричной, что означает, что они одинаково наказывают как завышенное, так и недостаточное предсказание. Вот почему важна функция Custom Loss.