1. Контрастная дистилляция — это эффективная сэмпловая политика самоконтроля потерь для трансферного обучения(arXiv)

Автор: Крис Ленгерих, Габриэль Синнев, Эми Чжан, Хью Лезер, Курт Шустер, Франсуа Шартон, Чарисс Редвуд.

Аннотация:традиционные подходы к RL были сосредоточены на изучении политики принятия решений непосредственно из эпизодических решений, при этом медленно и неявно изучая семантику композиционных представлений, необходимых для обобщения. В то время как некоторые подходы были приняты для уточнения представлений с помощью вспомогательных потерь с самоконтролем при одновременном изучении политик принятия решений, изучение композиционных представлений на основе разработанных вручную и независимых от контекста потерь с самоконтролем (мульти-просмотр) по-прежнему относительно медленно адаптируется к реальному миру. который содержит множество подпространств, отличных от IID, требующих быстрого сдвига распределения во временных и пространственных паттернах внимания на различных уровнях абстракции. Напротив, каскады языковых моделей с учителем продемонстрировали гибкость для адаптации ко многим разнообразным многообразиям и намеки на самообучение, необходимое для автономной передачи задач. Однако на сегодняшний день методы передачи для языковых моделей, такие как обучение за несколько шагов и тонкая настройка, по-прежнему требуют наблюдения со стороны человека, а передача обучения с использованием методов самообучения недостаточно изучена. Мы предлагаем политику потерь с самоконтролем, называемую контрастной дистилляцией, которая выявляет скрытые переменные с высоким уровнем взаимной информации как с исходными, так и с целевыми задачами от весов до жетонов. Мы показываем, как это превосходит обычные методы трансферного обучения, и предлагаем полезную ось дизайна, заключающуюся в обмене вычислений на универсальность для онлайн-перевода. Сравнительная дистилляция улучшается за счет выборки из памяти и предлагает простой алгоритм для более эффективной выборки отрицательных примеров для контрастных потерь, чем случайная выборка.

2.О роли параллельных данных в межъязыковом трансферном обучении(arXiv)

Автор: Машел Рейд, Микель Артече

Аннотация . Хотя в предыдущей работе было установлено, что использование параллельных данных способствует межъязыковому обучению, неясно, связаны ли улучшения с самими данными или это моделирование параллельных взаимодействий. имеет значение. Исследуя это, мы изучаем использование неконтролируемого машинного перевода для создания синтетических параллельных данных и сравниваем его с контролируемым машинным переводом и золотыми параллельными данными. Мы обнаружили, что даже сгенерированные моделью параллельные данные могут быть полезны для последующих задач как в общей настройке (продолжение предварительной подготовки), так и в настройке для конкретной задачи (перевод-обучение), хотя наши лучшие результаты по-прежнему получаются с использованием реальных параллельных данных. Наши выводы показывают, что существующие многоязычные модели не используют весь потенциал одноязычных данных, и побуждают сообщество пересмотреть традиционную категоризацию подходов к межъязыковому обучению△. Меньше