Эта статья является частью серии Academic Alibaba и взята из статьи WSDM 2019 под названием Обучение выборочной передаче: усиленное обучение переносу для глубокого сопоставления текста, написанной Чен Цюем, Фэн Цзи. , Минхуэй Цю, Лю Ян, Чжиюй Минь, Хайцин Чен, Цзюнь Хуанг и В. Брюс Крофт. Полностью статью можно прочитать здесь.

Когда вы отправляетесь на неизведанную территорию, одна опасность, безусловно, заключается в неизвестности. Столь же велика опасность полагаться на знания, полученные в других средах, которые могут помочь в одних случаях и навредить в других — опасность, известная в мире машинного обучения как отрицательный перенос.

В системах сопоставления текста отрицательный перенос представляет собой очевидный риск методов трансферного обучения (TL), которые решают проблему нехватки помеченных данных в одном домене путем импорта данных из доменов, богатых ресурсами. Это не просто сокращение производительности, а реальное требование к повседневным приложениям, учитывая обилие небольших доменов для конкретных категорий (например, отдельные типы продуктов в случае электронной коммерции). К сожалению, возникло явное несоответствие между существующими методами отбора и недавними моделями глубокого переноса из-за сложности их совместного обучения, что до сих пор ограничивало усилия по эффективной интеграции выбора исходных данных в TL.

Чтобы решить эту проблему, исследователи из Alibaba предложили новый усиленный селектор данных, который работает в исходных доменах, чтобы найти подмножество для оптимизации модели TL, после чего TL предоставляет обратную связь для обновления селектора данных. В экспериментах полученная модель усиленного трансферного обучения (RTL) значительно улучшила производительность механизма TL в ключевых критериях идентификации перефразирования и задач вывода на естественном языке, открывая новые возможности для широкого спектра приложений, включая поиск документов и ответы на вопросы.

Хорошо усиленная структура

Предлагаемая структура RTL состоит из базовой модели, модели переноса обучения и усиленного селектора данных, каждый из которых представляет собой ключевую подзадачу.

Базовая модель, отвечающая за сопоставление текста, представляет собой общую нейронную сеть Decomposable Attention Model (DAM), выбранную за ее эффективность. В нем три совместно обученных компонента выравнивают пары входных предложений, сравнивают их и создают представление пары предложений соответственно. Над ним модель трансферного обучения использует большой объем данных исходной области, используя структуру глубокой нейронной сети (DNN) с полностью общим кодировщиком. Наконец, усиленный селектор данных завершает выбор данных из исходного домена, работая в качестве агента для предотвращения отрицательного переноса, сохраняя или удаляя заданную исходную выборку пары предложений на основе изученной политики. После этого модель TL оценивает решения агента и предоставляет вознаграждение за благоприятный выбор, позволяя агенту преследовать единственную цель — максимизировать ожидаемое общее вознаграждение в будущем.

В целом, структуру RTL можно рассматривать как состоящую из двух частей: усиленного селектора данных и модели TL, причем базовая модель встроена в модель TL. Они изучаются совместно, тесно взаимодействуя во время обучения.

Тестирование переносимости

Чтобы оценить предложенную модель, исследователи разработали тесты идентификации перефразирования (PI) и вывода на естественном языке (NLI), чтобы имитировать переход из относительно открытой области в относительно закрытую. Как и фреймворк RTL в целом, каждый из его компонентов оценивался по тщательно отобранной конкурентной модели.

Результаты показывают, что предложенная модель смогла обеспечить статистически значимое улучшение по сравнению с самой сильной базовой линией в задаче PI, в то время как она значительно превзошла самую сильную базовую линию в задаче NLI. В будущей работе исследователи изучат, как более эффективные представления о состоянии могут адаптировать продемонстрированные методы для других задач.

Полностью статью можно прочитать здесь.

Алибаба Тех

Подробная информация о новейших технологиях Alibaba из первых рук → Facebook: Alibaba Tech». Твиттер: «AlibabaTech».