Руководство по исследованию: Расширенные функции потерь для моделей машинного обучения

[Почти] Все, что вам нужно знать в 2019 году

Помимо хороших обучающих данных и правильной архитектуры модели, функции потерь являются одной из наиболее важных частей обучения точной модели машинного обучения. В этом посте я хотел бы дать разработчикам обзор некоторых из более сложных функций потерь и того, как их можно использовать для повышения точности моделей или решения совершенно новых задач.

Например, модели семантической сегментации обычно используют простую кросс-категориальную функцию потери энтропии во время обучения, но если мы хотим сегментировать объекты с большим количеством мелких деталей, таких как волосы, добавление в модель функции потери градиента может значительно улучшить результаты.

Это всего лишь один пример - в следующем руководстве рассматриваются исследования, посвященные разнообразным расширенным функциям потерь для моделей машинного обучения.

Устойчивые двухуровневые логистические потери на основе расхождений Брегмана

Функции логистических потерь не очень хорошо работают во время обучения, когда рассматриваемые данные очень зашумлены. Такой шум может быть вызван выбросами или неверно маркированными данными. В этой статье авторы Google Brain стремятся устранить недостатки функции логистических потерь, заменив логарифм и экспоненциальную функцию их соответствующими «умеренными» версиями.

Двухмерные логистические потери для обучения нейронных сетей с зашумленными данными
Качество моделей, созданных с помощью алгоритмов машинного обучения (ML), напрямую зависит от качества обучения… ai.googleblog.com

Авторы вводят температуру в экспоненциальную функцию и заменяют выходной слой softmax нейронных сетей высокотемпературным обобщением. Алгоритм, используемый в логарифмической потере, заменен низкотемпературным логарифмом. Эти две температуры настроены для создания невыпуклых функций потерь.

Последний слой нейронной сети заменяется двухтемпературным обобщением логистической потери. Это делает тренировочный процесс более устойчивым к шуму. Предлагаемый в статье метод основан на расхождениях Брегмана. Его производительность можно визуализировать на рисунке ниже.

Для экспериментов авторы добавили синтетический шум в наборы данных MNIST и CIFAR-100. Затем результаты, полученные с их функцией двухтемпературных потерь, сравнивали с ванильной функцией логистических потерь. Погрешность двухтемпературных потерь составляет 98,56% для MNIST и 62,5% для CIFAR-100. На рисунке ниже подробно показаны характеристики.

Функции потери GAN

Потеря дискриминатора направлена на максимальное увеличение вероятности реальных и поддельных изображений. Минимаксные потери используются в документе, который представил GAN. Это стратегия, направленная на сокращение возможных убытков при наихудшем сценарии. Это просто минимизация максимальных потерь. Эта потеря также используется в играх для двух игроков, чтобы уменьшить максимальную потерю для слоя.

Созданы ли GAN равными? Крупномасштабное исследование
Генеративные состязательные сети (GAN) - мощный подкласс генеративных моделей. Несмотря на очень обширное исследование… arxiv.org

В случае GAN два игрока - это генератор и дискриминатор. Это включает в себя минимизацию потерь генератора и максимизацию потерь дискриминатора. Изменение потерь дискриминатора формирует ненасыщающие потери GAN, целью которых является решение проблемы насыщения. Это включает в себя генератор, максимизирующий логарифм вероятностей дискриминатора. Это делается для сгенерированных изображений.

Метод наименьших квадратов GAN loss был разработан, чтобы противостоять проблемам двоичной кросс-энтропийной потери, в результате чего сгенерированные изображения сильно отличались от реальных изображений. Эта функция потерь принята за дискриминатор. В результате этого GAN, использующие эту функцию потерь, могут генерировать изображения более высокого качества, чем обычные GAN. Их сравнение показано на следующем рисунке.

Учебник NIPS 2016: Генеративные состязательные сети
В этом отчете резюмируется учебное пособие, представленное автором на NIPS 2016 по генеративным состязательным сетям (GAN). … arxiv.org

Функция потерь Вассерштейна зависит от модификации архитектуры GAN, где дискриминатор не выполняет классификацию экземпляров. Вместо этого дискриминатор выводит число для каждого экземпляра. Он пытается увеличить количество реальных экземпляров, чем поддельных.

В этой функции потерь дискриминатор пытается максимизировать разницу между выходными данными реальных экземпляров и выходными данными поддельных экземпляров. Генератор, с другой стороны, пытается максимизировать производительность дискриминатора для его поддельных экземпляров.

Wasserstein GAN
Мы представляем новый алгоритм под названием WGAN, альтернативный традиционному обучению GAN. В этой новой модели мы показываем, что… arxiv.org

Вот изображение, показывающее эффективность GAN с использованием этой потери.

Потеря фокусировки при обнаружении плотных объектов

В этой статье предлагается усовершенствовать стандартный критерий кросс-энтропии, изменив его так, чтобы он утвердил потери, присваиваемые хорошо классифицированным примерам, - фокальные потери. Эта функция потерь предназначена для решения проблемы дисбаланса классов.

Потеря фокуса нацелена на обучение на редком наборе сложных примеров и предотвращает выход из строя легкого негатива детектора во время обучения. Для тестирования авторы разрабатывают RetinaNet - простой плотный детектор.

Потеря фокуса при обнаружении плотных объектов
Детекторы объектов с самой высокой точностью на сегодняшний день основаны на двухэтапном подходе, популяризированном R-CNN, где… arxiv .org

В этой функции потерь потери кросс-энтропии масштабируются с уменьшением масштабных коэффициентов до нуля по мере увеличения уверенности в правильных классах. Коэффициент масштабирования автоматически снижает вес простых примеров во время обучения и фокусируется на сложных.

Вот результаты, полученные с помощью функции потери фокуса на RetinaNet.

Функции потерь со сбалансированным пересечением по объединению (IoU) для одноэтапного обнаружения объектов

Функции потерь, принятые в одноступенчатых детекторах, при локализации работают неоптимально. В этой статье предлагается функция потерь, основанная на IoU, которая состоит из IoU-сбалансированной классификации и IoU-сбалансированных потерь локализации.

IoU-сбалансированные функции потерь для одноэтапного обнаружения объектов
Одноступенчатые детекторы эффективны. Однако мы обнаружили, что функции потерь, принятые одноступенчатыми детекторами, являются… arxiv.org

Потеря классификации с балансировкой по IoU фокусируется на положительных сценариях с высоким IoU, что может увеличить корреляцию между классификацией и задачей локализации. Потеря направлена на уменьшение градиента в примерах с низким IoU и увеличение градиента в примерах с высоким IoU. Это увеличивает точность локализации моделей.

Характеристики потерь в наборе данных COCO показаны ниже.

Граничные потери для сильно несбалансированной сегментации

В этой статье предлагается граничная потеря для сильно несбалансированных сегментов. Потеря принимает форму метрики расстояния в пространстве контуров, а не регионов. Это сделано для решения проблемы региональных потерь из-за проблем с очень несбалансированной сегментацией. Потеря вызвана методами дискретной оптимизации для вычисления градиентных потоков эволюции кривой.

В граничных потерях используются интегралы по границе между областями, а не несбалансированные интегралы по областям. Используется интегральный подход к расчету вариаций границ. Авторы выражают несимметричное расстояние L2 на пространстве форм как региональный интеграл. Это позволяет избежать локальных дифференциальных вычислений с участием точек контура. В результате получается граничная потеря, которая выражается как сумма региональных выходов вероятности softmax сети. Потери легко комбинируются с региональными потерями и включаются в существующие архитектуры глубокой сети.

Потеря границ была проверена на наборах данных Поражение ишемическим инсультом (ISLES) и Гиперинтенсивность белого вещества (WMH).

Функция потери восприятия

Эта функция потерь используется при сравнении изображений, которые выглядят одинаково. Функция потерь в основном используется для обучения нейронных сетей с прямой связью для задач преобразования изображений.

Потери восприятия при передаче стиля в реальном времени и сверхвысоком разрешении
Мы рассматриваем проблемы преобразования изображений, когда входное изображение преобразуется в выходное изображение. Последние методы для… arxiv.org

Функция воспринимаемых потерь работает путем добавления квадратов ошибок в середине всех пикселей и вычисления среднего значения.

При передаче стиля потеря восприятия позволяет моделям глубокого обучения реконструировать более мелкие детали лучше, чем другие функции потерь. Во время обучения потери восприятия измеряют сходство изображений лучше, чем функции попиксельных потерь. Они также позволяют передавать семантические знания из сети потерь в сеть преобразования.

Заключение

Теперь мы должны быть в курсе некоторых из наиболее распространенных - и нескольких совсем недавних - расширенных функций потерь.

В упомянутых выше статьях / рефератах также есть ссылки на их реализации кода. Мы будем рады увидеть результаты, которые вы получите после их тестирования.

Учебный курс по науке о данных на Python
Изучите Python для науки о данных, NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn, Dask, LightGBM, XGBoost, CatBoost и многое другое… www.udemy.com

Примечание редактора. Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Являясь независимой редакцией, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить лучшие модели машинного обучения.