Метрики оценки текстовых проблем

Наука о данных

Метрики оценки текстовых проблем

Почему метрики нужно определять в самом начале

Если вы не знаете, как обосновать, хороша модель или нет, это похоже на то, что вы хотите что-то получить, но не знаете, что это такое. Проработав несколько лет специалистом по анализу данных, я твердо уверен, что показатели - это очень важная вещь, которую нужно определять на ранней стадии.

В этой истории будут рассмотрены несколько текстовых метрик. Вы также можете ознакомиться со следующими историями, чтобы понять другие показатели оценки.

Текстовые метрики оценки

В области обработки естественного языка (NLP) у нас есть множество последующих задач, таких как перевод, распознавание текста и перевод. В этой истории мы рассмотрим:

Генерация текста: недоумение
Перевод: BLEU
Распознавание текста: CER и WER
Понимание языка: КЛЕЙ

Недоумение

Возможная задача: языковая модель

Языковая модель относится к тому, насколько текст, сгенерированный машиной, похож на то, как его пишут люди. Другими словами, с учетом k предыдущего слова и правильной оценки генерации k + 1 токена. Чем меньше вы понимаете, тем лучше ваша модель.

Возьмем пример «Я люблю НЛП». Мы должны вычислить вероятность получения «я», вероятность «любви» с учетом того, что предыдущее слово - это «я», а вероятность получения «НЛП», выражающего предыдущие слова, - это «я» и «любовь».

Двуязычный дублер оценки (BLEU)

Возможная задача: нейронный машинный перевод (NMT), создание подписи (например, проблема Image2Text)

Поскольку ручная маркировка для профессионального перевода очень дорога, BLEU вводится для измерения разницы между текстом кандидата (переведенным машиной) и справочным текстом (переведенным человеком). Значение находится в диапазоне от 0 до 1, а 1 - лучший результат. Вычисление BLEU включает в себя концепцию точности n-граммов и штрафа за краткость предложения.

В следующем примере этот типичный пример будет использоваться для демонстрации расчета. Кандидат - это текст, переведенный с помощью модели машинного обучения, в то время как ссылки 1 и 2 - это текст, переведенный человеком.

Прежде всего, вместо использования юниграмм, BLEU использует n-грамм для расчета баллов. Высокий балл по шкале Uni-gram представляет собой полноту, в то время как оценка n-грамма представляет собой беглость переведенного текста.

Следующая формула вычисляет i-е слово, которое существует в j ссылочном слове.

В приведенном выше примере мы можем получить ответ «the»: min (7, 2) = 2 для ссылки 1. Ответ для ссылки 2: min (7, 1) = 1.

В приведенном выше примере мы получаем ответ 2, а формула - max (1, 2). В фактических расчетах это будет не просто единица грамма, а n-грамм. Расчет такой же, но просто сравнивается «Кот», «Кот» и т. Д., А не «The», «cat», «is» по отдельности.

Благодаря расчету формулы короткие предложения могут легко получить высокий балл. Поэтому Papineni et al. предложите включить штраф для тех меньших слов кандидата предложения, которые называют BP.

Если номер слова в кандидате совпадает со ссылкой, тогда нет штрафа, равного 1. Если кандидат - «Кот», а ссылка - «Кот на циновке». Таким образом, r равно 6, а c равно 2. В приведенном выше примере BP равно e ^ (1-6 / 2) = 7,3891.

Наконец, оценка BLEU рассчитывается

Мы можем использовать пакет NLTK для его расчета, и оценка составит 0,5026.

from nltk.translate.bleu_score import sentence_bleu
candidate = ['The', 'cat', 'sat', 'on', 'the', 'mat']
reference = [['The', 'cat', 'is', 'on', 'the', 'mat']]
weights = (0.34,0.33,0.33,0)
score = sentence_bleu(reference, candidate, weights)

К недостаткам можно отнести:

Не считайте синонимом. Поскольку он вычисляет только точное совпадение слов, слово-синоним будет считаться неправильным, если эти слова-синонимы не существуют в справочном тексте.
Stopword также способствует точности. Стоп-слова (например, a, an, the) не имеют большого значения и будут повторяться в тексте снова и снова. Это может повысить точность.

Коэффициент ошибок символов (CER)

Возможная задача: распознавание речи, оптическое распознавание символов (OCR), распознавание почерка.

CER вычисляет минимальное количество операций для перевода одного слова в другое слово Расстояние Левенштейна.

Коэффициент ошибок в словах (WER)

Возможная задача: распознавание речи, оптическое распознавание символов (OCR), распознавание почерка.

WER фактически произошло от Дистанции Левенштейна. Он вычисляет минимальное расстояние с помощью справочных слов. Замена, удаление и вставка относятся к ошибке, и на ее основе рассчитывается WER. В зависимости от расстояния редактирования ошибок формула выберет минимальное расстояние среди этих ошибок.

Недостатком является то, что предполагается, что влияние разных ошибок одинаково. Иногда ошибка вставки может иметь большее влияние, чем удаление. Другое ограничение заключается в том, что этот показатель не может отличить ошибку замены от ошибки удаления и вставки.

Оценка общего понимания языка (GLUE)

КЛЕЙ предлагается командой Нью-Йоркского университета. Он включает девять заданий на понимание английского языка. Он также содержит базовый балл, позволяющий практикующему специалисту оценить, насколько хороша его модель. Итоговая оценка - это просто набранные девять баллов за задания. Чем выше, тем лучше.

Из следующей таблицы лидеров вы можете заметить, что базовый уровень человека (ранг № 12) ниже, чем у многих известных моделей, таких как T5, MT-DNN и RoBERTa.

Обо мне

Я специалист по анализу данных в районе залива. Сосредоточение внимания на новейших достижениях науки о данных, искусственного интеллекта, особенно в области НЛП и связанных с ними платформ. Вы можете связаться со мной из Medium Blog, LinkedIn или Github.

Чтение расширений

"КЛЕЙ"

Ссылка

К. Папинени, С. Рукос, Т. Уорд и В. Дж. Чжу. BLEU: метод автоматической оценки машинного перевода. 2002 г.
А. Ван, А. Сингх, Дж. Майкл, Ф. Хилл, О. Леви и С. Р. Боуман. GLUE: многозадачная платформа для тестирования и анализа естественного языка. 2018.

Метрики оценки текстовых проблем

Наука о данных