Приложения моделей BERT, часть 2 (Машинное обучение, 2023 г.)

Можем ли мы использовать зондирование, чтобы лучше понять тонкую настройку и дистилляцию знаний BERT NLU? (arXiv)

Автор : Акуб Хосцилович, Марцин Совански, Пётр Чубовский, Артур Яницкий.

Аннотация: В этой статье мы используем зондирование для исследования явлений, возникающих во время тонкой настройки и дистилляции знаний модели понимания естественного языка (NLU) на основе BERT. Нашей конечной целью было использовать зондирование, чтобы лучше понять практические производственные проблемы и, следовательно, построить лучшие модели NLU. Мы разработали эксперименты, чтобы увидеть, как тонкая настройка меняет лингвистические возможности BERT, каков оптимальный размер набора данных для тонкой настройки и какой объем информации содержится в дистиллированном NLU на основе крошечного преобразователя. Результаты экспериментов показывают, что парадигма зондирования в ее нынешнем виде плохо подходит для ответа на подобные вопросы. Структурные, краевые и условные зонды не учитывают, насколько легко декодировать зондированную информацию. Следовательно, мы заключаем, что количественная оценка декодируемости информации имеет решающее значение для многих практических приложений зондирующей парадигмы.

2. Внедрение оценки BM25 в качестве текста улучшает переранжировщики на основе BERT (arXiv)

Автор: Ариан Аскари, Амин Аболгасеми, Габриэлла Паси, Вессел Краай, Сюзан Верберн.

Аннотация: В этой статье мы предлагаем новый подход к объединению моделей лексического поиска первого этапа и реранжировщиков на основе Transformer: мы вводим показатель релевантности лексической модели в качестве токена в середине входных данных кросс-кодировщика re. -ранкер. В предыдущей работе было показано, что интерполяция между оценкой релевантности лексических реранжировщиков и реранжировщиков на основе BERT может не всегда приводить к более высокой эффективности. Наша идея мотивирована открытием, что модели BERT могут фиксировать числовую информацию. Мы сравниваем несколько представлений оценки BM25 и вводим их в виде текста на вход четырех разных кросс-кодировщиков. Кроме того, мы анализируем эффект для разных типов запросов и исследуем эффективность нашего метода для определения релевантности точного совпадения. Оценка коллекции MSMARCO Passage и коллекций TREC DL показывает, что предлагаемый метод значительно улучшается по сравнению со всеми реранжировщиками с перекрестным кодированием, а также с обычными методами интерполяции. Мы показываем, что улучшение последовательно для всех типов запросов. Мы также обнаружили улучшение возможностей точного сопоставления как по сравнению с BM25, так и с кросс-энкодерами. Наши результаты показывают, что средства повторного ранжирования кросс-кодировщика могут быть эффективно улучшены без дополнительной вычислительной нагрузки и дополнительных шагов в конвейере путем явного добавления выходных данных ранжировщика первого этапа к входным данным модели, и этот эффект устойчив для различных моделей и запросов. типы

Приложения моделей BERT, часть 2 (Машинное обучение, 2023 г.)

Вопросы по теме