Работа с расхождением Дженсена Шеннона, часть 3 (машинное обучение)

Непараметрический вывод без правдоподобия с расхождением Дженсена-Шеннона для моделей на основе симулятора с категориальным выходом (arXiv)

Автор : : Юкка Корандер, Улпу Ремес, Ида Холопайнен, Тимо Коски

Аннотация: Вывод без правдоподобия для статистических моделей на основе симуляторов в последнее время вызвал всплеск интереса как в сообществах машинного обучения, так и в сообществах статистики. Основное внимание в этих областях исследований было сосредоточено на аппроксимации апостериорного распределения параметров модели либо с помощью различных типов алгоритмов выборки Монте-Карло, либо с помощью суррогатных моделей на основе глубоких нейронных сетей. На сегодняшний день частотному выводу для моделей на основе симуляторов уделяется гораздо меньше внимания, несмотря на то, что он особенно подходит для приложений с большими данными, где ожидается, что неявная асимптотическая аппроксимация вероятности будет точной и может использовать эффективные вычислительные стратегии. Здесь мы получаем набор теоретических результатов, позволяющих проводить оценку, проверку гипотез и построение доверительных интервалов для параметров модели с использованием асимптотических свойств дивергенции Дженсена — Шеннона. Такая асимптотическая аппроксимация предлагает быструю альтернативу более ресурсоемким подходам и может быть привлекательной для различных приложений моделей на основе симуляторов. 61

2. Обобщенная потеря расхождения Дженсена-Шеннона для обучения с шумными метками (arXiv)

Автор: Эрик Энглессон, Хоссейн Азизпур.

Аннотация: В предыдущих работах было обнаружено, что выгодно сочетать доказуемо устойчивые к шуму функции потерь, например, среднюю абсолютную ошибку (MAE) со стандартной категориальной функцией потерь, например. перекрестная энтропия (CE), чтобы улучшить их обучаемость. Здесь мы предлагаем использовать расхождение Дженсена-Шеннона в качестве устойчивой к шуму функции потерь и показать, что она интересно интерполирует между CE и MAE с управляемым параметром смешивания. Кроме того, мы делаем важное наблюдение, что CE демонстрирует более низкую согласованность вокруг зашумленных точек данных. Основываясь на этом наблюдении, мы принимаем обобщенную версию расхождения Дженсена-Шеннона для нескольких распределений, чтобы обеспечить согласованность точек данных. Используя эту функцию потерь, мы показываем самые современные результаты как для синтетического (CIFAR), так и для реального (например, WebVision) шума с различной интенсивностью шума.

Работа с расхождением Дженсена Шеннона, часть 3 (машинное обучение)

Вопросы по теме