"Машинное обучение"

Недостатки потерь MSE и способы их устранения

Как улучшить результаты, полученные с помощью среднеквадратичной потери ошибок

Среднеквадратичная ошибка - одна из наиболее часто используемых и наиболее простых функций потерь на основе регрессии в машинном обучении и науке о данных. Он используется в ряде задач, таких как линейная регрессия табличных данных для конкретных вариантов использования в компьютерном зрении, NLP, обучении с подкреплением и т. Д. Помимо MSE, MAE также широко используется и очень похож на MSE Loss.

Несмотря на то, что он широко используется в машинном обучении, он имеет ряд недостатков, которые я хотел бы выделить в этой статье. Существуют определенные способы минимизировать его слабые места для получения лучших результатов, которые обсуждаются в конце. Обсуждение и варианты использования сохранены в соответствии с компьютерным зрением для простоты и лучшего понимания.

Недостаток:

Функции потерь, такие как MSE, MAE, обычно страдают от неопределенности, присутствующей в наборе данных. Во время обучения модели может возникнуть ситуация, когда для одного и того же входа могут быть разные равновероятные результаты. Во всех таких случаях функция MSE Loss направлена ​​на устранение неопределенности в прогнозах путем размытия прогнозов или, проще говоря, взятия среднего из возможных выходных значений. Это связано с тем, что среднее из всех возможных результатов приведет к глобальным минимумам в пространстве параметров во время обучения. Точно так же потеря MAE предсказывает медианное значение всех таких результатов. Это размытие результатов функциями потерь на основе L-нормы приводит к таким артефактам, как некачественные результаты, размытие и т. Д.

Эти артефакты распространены в задачах преобразования изображения в изображение и видео в видео, таких как суперразрешение, прогнозирование видео, структурированное прогнозирование, регрессия позы камеры и т. Д.

Статистическое объяснение:

Функция потерь предполагает, что выборки данных в наборе данных следуют распределению Гаусса, что вряд ли возможно для любого реального набора данных. Это предположение также приводит к ограничению, согласно которому распределение набора данных должно быть одномодальным по своей природе, что подразумевает, что должен быть только наиболее вероятный результат. Это предположение не соответствует действительности в большинстве случаев, когда речь идет о реальных наборах данных.

Если распределение набора данных не одномодальное, и MSE Loss используется для обучения сети. Затем он попытается подогнать мультимодальное распределение как распределение Гаусса, что обычно означает, что пики усредняются в случае потери MSE или медиана объединяется в случае потери MAE.

Используя MSE Loss, прогноз, который является средним из всех возможных результатов из сети, будет пытаться минимизировать ошибку, поскольку полученный прогноз будет глобальным оптимумом, таким образом избегая более мелких деталей, таких как черты лица и тонкие межкадровые движения, как они есть. считается шумом в сети.

Как улучшить результат?

Чтобы улучшить результаты, исследователи машинного обучения испробовали множество различных подходов к решению проблемы усреднения возможных прогнозов. Также следует позаботиться о том, чтобы большая часть сети была детерминированной, т. Е. Поскольку они возвращали один и тот же результат для одного и того же входа. Большинство нейронных сетей спроектированы таким образом, чтобы давать наиболее вероятный результат, а не возвращать множество возможных результатов.

Было предложено множество различных подходов для решения вышеупомянутых проблем в функции потерь MSE, два наиболее часто используемых подхода заключаются в следующем.

  • Состязательная подготовка
  • Потеря восприятия

Состязательная подготовка:

С момента появления GAN в 2014 году исследования резко расширились и улучшили результаты для генерации выходных данных путем моделирования распределения данных с использованием минимаксной игры. При состязательном обучении дискриминатор используется для обучения модели путем конкуренции за сетевое предсказание с выборками из набора данных. Используя помощь дискриминатора, сеть создает тонкие текстуры и устраняет эффект размытия.

Однако следует отметить, что текстуры, введенные с помощью состязательной тренировки, являются поверхностными и не соответствуют основной истине.

Потеря восприятия:

При воспринимаемых потерях достоверность и предсказание передаются через предварительно обученную нейронную сеть, а MSE промежуточных слоев рассчитывается как потеря. Наиболее распространенной сетью, используемой в этом процессе, является VGG19, обученная на ImageNet Dataset. Для этого используются первые пять слоев VGG19.

Аргументом в пользу использования потери восприятия является то, что он извлекает особенности и представления выходного изображения / видео и пытается минимизировать разницу между ними. Итак, утверждается, что, используя функцию потерь восприятия, сеть пытается узнать о тонких особенностях распределения набора данных.

Эта потеря используется вместе с MSE Loss и обычно имеет коэффициент

Выводы:

Доказано, что использование всех этих методов для уменьшения эффекта усреднения помогает и дает лучшие результаты. Но, тем не менее, большинство подходов основаны на функциях потерь на основе пикселей, основанных на расстоянии. Таким образом, регресс к средней проблеме все еще является активной областью исследований.