Функции потерь, используемые в искусственном интеллекте

После обучения вашей модели машинного обучения она даст некоторые результаты, но откуда вы знаете, что это хорошие результаты? Вот где функция потерь входит в картину искусственного интеллекта. Функции потерь оценивают вашу модель и работают как метрика, но вместо того, чтобы показывать, насколько хороша ваша модель, они фокусируются на том, насколько она плоха. Он представляет собой цену, заплаченную за неточность прогнозов, сделанных моделью. Таким образом, чем меньше потери, тем лучше ваша модель. По сути, он дает меру ошибки между прогнозами вашей модели и заданными целевыми значениями. Используя функции оптимизации, мы уменьшаем ошибку в наших прогнозах.

Существует два типа функций потерь: функции потерь регрессии и функции потерь классификации. Мы обсудим некоторые функции потерь каждого типа.

Функции регрессионных потерь:

Среднеквадратическая ошибка. Среднеквадратическая ошибка (MSE) равна среднеквадратичной разнице (расстоянию или ошибке) между прогнозируемым и целевым (фактически) значениями. Для лучшей модели MSE должен быть минимальным.

MSE — очень популярная метрика, используемая в задачах регрессии. Квадрат ошибки выгоден, так как он всегда дает положительное значение, поэтому сумма не будет равна нулю. Кроме того, он выделяет большие различия, которые могут быть как хорошими, так и плохими (это гарантирует, что наша обученная модель не содержит выбросов, тогда как один выброс увеличивает ошибку). Это также называется потерями L2.

2. Средняя абсолютная ошибка. Средняя абсолютная ошибка (MAE) равна средней абсолютной разнице (расстоянию) между прогнозируемым и целевым (фактически) значениями.

MSE и MAE также являются наиболее распространенными функциями потерь для задач регрессии. Поскольку MAE не использует квадрат, он более устойчив к выбросам, чем MSE. Это также известно как потеря L1.

3. Потеря Хубера: это комбинация абсолютной и квадратичной ошибок. Когда ошибка мала, потери являются квадратичными, а когда ошибка велика, потери линейны. Порог для определения ошибки как малой или большой является параметром. По сравнению с квадратичной ошибкой потери Хубера менее чувствительны к выбросам.

Значение δ определяет, какой прогноз считается выбросом. Значение δ следует увеличить, если предпочтительнее меньшее количество выбросов, поскольку больше прогнозов будет лежать под квадратичной ошибкой, а не под абсолютной ошибкой.

4. Log cosh Loss: равен логарифму гиперболического косинуса (cosh) ошибки между прогнозируемым выходным значением и фактическим выходным значением. Эта функция потерь более гладкая, чем MSE (потери L2).

Для малых значений x log(cosh(x)) примерно равен x²/2. а для больших значений x равно |x| — лог(2). Таким образом, логарифмическая потеря cosh в основном равна MSE, но на нее не влияют выбросы.

Функции классификации потерь:

Перекрестная потеря энтропии. Также известна как ошибка потери журнала. Потеря журнала - очень распространенная функция потерь, используемая в задачах классификации. Она возрастает по мере того, как прогнозируемая вероятность отличается от фактической метки. Его формула выглядит следующим образом:

Здесь p — вероятность положительного класса (y = 1), а N — количество выборок в наборе данных.

При y = 0 первый член становится равным нулю, а при y = 1 второй член равен нулю. Следовательно, это в основном журнал прогнозируемой вероятности.

2. Потеря шарнира: эта функция потерь в основном используется для классификаторов машин опорных векторов (SVM). Потеря шарнира наказывает неверные прогнозы, а также правильные прогнозы, которые не уверены. Метки классов, используемые в SVM, равны -1 и +1, поэтому метки набора данных должны быть соответствующим образом масштабированы. Он также известен как потеря SVM.

Формула потери шарнира выглядит следующим образом:

Здесь t — фактический результат (цель), а y — результат, предсказанный нашим классификатором.

Функции многоклассовой классификации потерь:

Не все задачи имеют только два класса, для некоторых задач может быть несколько выходных классов. Например, в наборе данных изображений фруктов вам может потребоваться классифицировать более двух фруктов, таких как яблоко, апельсин и манго, или задачу классификации цифр. В этой многоклассовой классификации вы бы использовали функции потерь для одной и той же, а не для простой классификации, верно?

Многоклассовая перекрестная потеря энтропии: это то же самое, что и бинарная перекрестная потеря энтропии, только количество классов увеличивается. Это также известно как категориальная перекрестная потеря энтропии. Формула приведена ниже, где X — входной вектор, а Y — целевой вектор горячего кодирования.

2. KL-дивергенция:показатель дивергенции Кульбака-Лейблера (KL) измеряет, насколько одно распределение вероятностей отличается от другого эталонного распределения вероятностей. Она также известна как относительная энтропия. Он вычисляется как отрицательная сумма вероятности каждого события в P, умноженная на логарифм отношения вероятности каждого события в P к вероятности каждого события в Q. Здесь P и Q — два распределения вероятностей, а '|| ' обозначает дивергенцию.

Значение внутри суммы равно расхождению для данного события.

KL-расхождение несимметрично, т.е.

Функции потерь, используемые в сегментации изображений:

Потеря перекрестной энтропии по пикселям. Мы уже обсуждали потерю перекрестной энтропии. Разница здесь в том, что эта потеря учитывает каждый пиксель отдельно, сравнивая предсказание модели с целевыми метками для изображения. Формула аналогична логарифмическим потерям, и вычисление ошибки повторяется для всех пикселей, и, наконец, учитывается среднее значение. Это наиболее распространенная функция потерь, используемая для задач сегментации изображений. Точно так же среднеквадратическая ошибка (MSE) и средняя абсолютная ошибка (MAE) могут применяться для каждого пикселя отдельно для каждой прогнозируемой и целевой пары, и тогда окончательную потерю можно считать средней по всем пикселям.
Коэффициент костей Соренсена. Эта функция потерь используется для измерения сходства или перекрытия между двумя выборками. Его значения находятся в диапазоне от 0 до 1, где 1 означает совершенное сходство или полное перекрытие. Его формула выглядит следующим образом:

Где |A ∩ B| обозначает взаимные элементы между множествами A и B, а |A| обозначает количество элементов в наборе A (и аналогично для набора B).

В случае изображений мы считаем числитель равным поэлементному умножению пиксельных матриц двух выборок. И количество элементов каждого набора будет равно сумме элементов пиксельной матрицы.

При сегментации изображений этот коэффициент используется для сравнения выходных данных нашей модели с эталонными масками в медицинских целях.

Он также известен как индекс Соренсона, коэффициент Дайса и оценка F1.

Функции потерь, используемые в Computer Vision:

Функция потери восприятия: эта функция потери используется, когда необходимо выполнить сравнение двух похожих изображений. Например, при сравнении одного и того же изображения само по себе, когда оно сдвинуто на один пиксель или имеет разное разрешение. Здесь пиксельные функции потерь приведут к большому значению ошибки. Здесь на помощь приходит функция потери восприятия, чтобы сохранить вашу модель. Он сравнивает семантические и перцептивные различия высокого уровня между двумя изображениями. Формула потери восприятия равна квадрату нормализованного евклидова расстояния между представлениями признаков.

2. Контент — Функция потери стиля: Сначала мы обсудим технику передачи стиля.Метод отображения семантического содержания изображения в различных стилях известен как передача стиля. Проще говоря, вы берете изображение контента, стиль которого вы хотите изменить, например, изображение некоторых домов, кроме озера, и вы берете эталонное изображение, стиль которого вы хотите использовать в своем изображении, например, «Звездная ночь» Ван Гога. . Выходным изображением будет изображение этих домов в стиле Ван Гога «Звездная ночь». Вы можете увидеть пример изображения с тремя разными стилями на изображении ниже.

Мы знаем, что на более высоких уровнях CNN отображают информацию о контенте, а на более низких уровнях основное внимание уделяется значениям отдельных пикселей. Таким образом, вычисляются карты активации для исходного изображения контента (C) и прогнозируемого вывода (P), а функция потери контента рассчитывается следующим образом:

Функции потерь, используемые в обработке естественного языка (NLP):

Обработка естественного языка — это область, в которой компьютер обрабатывает и анализирует данные естественного языка. Это взаимодействие между компьютером и человеческим языком. Машинный перевод, автоматически переводящий текст с одного языка на другой, является очень важным применением НЛП.

Оценка BLEU:Нет, BLEU не означает какую-то случайную тарабарщину, например, Джоуи пытается говорить по-французски…

Bi-Lingual Evaluation Understudy (BLEU) — это алгоритм, используемый для оценки выходного переведенного текста, который был переведен машиной с одного языка на другой, например с французского на английский.

Оценка рассчитывается путем оценки сегмента переведенного текста с эталонными переводами. Эти сегменты обычно представляют собой предложения. Среднее значение этих баллов вычисляется по всей коллекции текстов для оценки качества перевода. Эта оценка варьируется от 0 до 1, где 1 означает полное сходство перевода-кандидата (прогнозируемый результат) с эталонным переводом (целевая метка). Он работает на модифицированной форме точности.

Кандидат: то, то, то, то

Ссылка 1: кошка на коврике

Упоминание 2:на коврике лежит кошка

Используя обычную точность, мы бы сказали, что слова в переводе-кандидате присутствуют в обоих эталонных переводах. Таким образом, точность будет 7/7 = 1. Это идеальная оценка, но мы можем ясно видеть, что вариант перевода не соответствует содержанию ссылок, а одно слово повторяется семь раз. Итак, мы берем максимальное количество слов, встречающихся в ссылках, здесь оно равно 2 для «the», а общее количество слов для кандидата равно 7. Таким образом, модифицированный показатель точности униграммы будет: 2/7.

Оценка BLEU использует n-грамм для расчета модифицированной метрики точности.

2. ROUGE:Recall-Oriented Understudy for Gisting Evaluation (ROUGE) используется для оценки автоматического сводного или машинного перевода со ссылкой. Это модифицированная версия BLEU. ROUGE концентрируется на отзыве, а не на точности, он измеряет количество n-грамм в эталонном переводе, появляющемся в выходном переводе.

Итак, это конец, конец статьи, а не конец вашей модели. После выбора функции потерь вы должны выбрать оптимизатор, который изменит веса вашей модели, чтобы уменьшить потери. Выбор функции потерь полностью зависит от вашего приложения. Есть много функций потерь, поэтому выбирайте с умом.

Спасибо, что прочитали мою статью! Я надеюсь, что это расширило ваши знания. Если вам интересен искусственный интеллект, вы можете прочитать другие мои статьи. Прощай!