BLEURT - Неисправности

Новая метрика для измерения текстового сходства, или, лучше сказать, метрика 21-го века, которую можно использовать, может быть, вечно.

Любая задача или архитектура, которую мы создаем, должны быть оценены, чтобы установить эталон. Этот тест может использовать некоторые простые метрики, такие как Жаккар, или какую-то причудливую математическую формулировку статистического обучения, но возникает тот же вопрос, достаточно ли этих метрик?

Каждый исследователь НЛП задается вопросом, как я могу оценить свою модель, и когда это область генерации текста на естественном языке, вопрос становится сложнее. Рассмотрим простой показатель, такой как точность, и попробуйте дать оценку сходства для изображения ниже:

где Ссылка 1 является результатом деятельности человека, а Выходные данные машинного перевода следует рассматривать как: the the the the the

Замените документы словами в приведенной выше формуле и вычислите оценку.

Таким образом, точность становится равной 1. Таким образом, был введен BLEU (двуязычный дублер).

Чтобы узнать больше о BLEU, вы можете прочитать его здесь. Но вкратце, BLEU выполняет определенный тип пересечения n-грамм, чтобы вычислить оценку.

Точно так же существует метрика ROUGE, которая работает на той же основе, что и BLEU. Эта метрика может работать нормально, когда у нас есть только один ответ, но как насчет случая, когда у нас более двух выходных данных, как в приведенном выше примере, у нас также может быть «Кот сидел на циновке». Следовательно, эти два метода не могут оценить семантическое сходство. Итак, зачем нужны эти оценки, когда у нас есть оценщики-люди. Как вы уже догадались, проведение оценки на людях - довольно дорогостоящий и утомительный процесс.

Поэтому исследователи подумали, почему бы не обучить модель машинного обучения, которая могла бы научиться выставлять оценки, то есть обучить нейронную сеть, где у вас есть выходные данные вашей модели и человеческий золотой стандарт для расчета потерь.

Попробовав различные методы, такие как BEER, RUSE и ESIM, мы попали в одну яму с отсутствием данных для обучения, так как становится довольно сложно обучать новую систему каждый год для оценки показателей. Отсюда и возник процесс трансферного обучения.

BLEURT также является примером процесса обучения метрикам, в котором мы используем трансфер-обучение для обучения и оценки задач NLG.

BLEURT, как это ни звучит, основан на архитектуре BERT, в документе также говорится о предварительном обучении BERT и использовании токена классификации для прогнозирования оценки, но это не был бы оптимальным способом оценки, поскольку авторы хотел создать метрику, которая может быть универсальной, и модель, которая при обучении на очень небольшом наборе данных способна выводить оценки.

Авторы выполнили три различных шага для создания этой метрической модели:
1. Обучение BERT (с использованием BERT, который был обучен на огромном корпусе)

2. Обучение синтетическим данным

3. Тонкая настройка

Первый шаг - это в основном обучение BERT, как написано в исходной статье.

Второй шаг довольно интересен, и это то, что делает эту статью уникальной.

Для обучения синтетическим данным они в основном создают модель BERT, которая пытается вычислить различные типы оценок, такие как BLEU или ROUGE, по миллиарду пар данных (z, z˜).

Проще говоря, вы даете модели BERT пару предложений (z, z˜) и ожидаете, что токен классификации выдаст оценку, а золотым стандартом для этой выходной оценки является исходная оценка BLEU, ROUGE или любой другой метрики.

Для создания этих синтетических пар они использовали предложения словаря Википедии (z), а для (z˜) они манипулировали z.

Для манипуляции у них есть разные техники, такие как заполнение маски с помощью BERT, обратный перевод или отбрасывание слов. Теперь, когда наш набор данных готов, как уже упоминалось, они помещают его в BERT и ожидают баллов по 6 различным метрикам оценки.

Третий и последний шаг - это тонкая настройка, когда вы помещаете несколько примеров золотого стандарта, и ваша модель научится предсказывать оценки на основе вашей задачи.

Привет, меня зовут Прияншу, и я активно участвую в создании Vision.ml, платформы для обмена опытом с разработчиками искусственного интеллекта, которые решают ряд проблем при проектировании и строительстве. сложные алгоритмы для выполнения определенных задач.

Vision.ml - это платформа с открытым исходным кодом для обмена неотразимым захватывающим контентом, с которым мы сталкиваемся при разработке моделей искусственного интеллекта. Неважно, простая проблема или слишком сложная. Мы поделились темами, которые, возможно, активно ищут большинство разработчиков / исследователей. Мы стараемся охватить темы от машинного обучения до языков программирования. Мы пишем, что мы решили и, что более важно, как мы подошли к этой проблеме.

Если вы читаете это, то вы, должно быть, думаете, что в чем заключается сбой в этой метрике, не так уж и много, но была одна, которая показалась мне довольно интересной, и проблема заключается в фазе обучения синтетических данных, где мы генерируем синтетические пары с помощью разных подходов, но все на основе трансформаторной архитектуры. Предположим, что в ACL’21 создается новый тип архитектуры, которая допускает совершенно иные ошибки, чем то, что делает наш преобразователь, тогда нам придется заново обучать эту метрику.

Даже нейронные сети становятся SOTA, и все остальные статьи используют трансформаторы, но не думаете ли вы, что объяснимость, которую они обеспечивают, НУЛЯ. Будем надеяться, что мы работаем над трансформаторами, и никакой другой тип архитектуры не появится, потому что этот SOTA BLEURT наверняка выйдет из строя и, следовательно, не будет таким надежным.

Одним из важных аспектов BLEURT являются результаты, но они требуют особого внимания, и я бы предпочел обсудить их во второй статье.

Если вам нравится идея vision.ml, подписывайтесь на меня, чтобы увидеть больше таких статей.

BLEURT - Неисправности

Вопросы по теме