Приветствую вас, сокурсники на Пути Науки о Данных!

Сегодня мы поговорим о сказочном мире Rouge Scores. Подожди, пока не убегай! Прежде чем мы углубимся в метрики, давайте поговорим об игре для вечеринок, которую вы, возможно, помните, под названием «Телефон». Это когда вы шепчете кому-то сообщение, а он шепчет его следующему человеку, и так далее, пока последний человек не произнесет сообщение вслух.

Но, как и в случае с «Телефоном», иногда суммирование текста может пойти совершенно неправильно. Вместо того, чтобы люди шептались друг с другом, у нас есть алгоритмы, обобщающие текст. И поверьте нам, результат может быть таким же ужасным, как игра в телефон, в которую играют дети, увлеченные сахаром.

Вот тут-то и появляются результаты Rouge Scores.

Rouge расшифровывается как «Recall-Oriented Understudy for Gisting Evaluation» и представляет собой шикарный набор показателей, которые сравнивают сводку, сгенерированную алгоритмом, с эталонной сводкой, созданной человеком. Цель состоит в том, чтобы увидеть, насколько хорошо алгоритм уловил суть исходного текста.

Итак, что измеряют эти показатели Rouge?

Есть несколько метрик, но мы сосредоточимся на самых популярных: Rouge-1, Rouge-2 и Rouge-L.

Эти показатели измеряют перекрытие между словами в сводке и словами в справочной сводке.

Rouge-1 измеряет перекрытие отдельных слов (униграмм) между сводкой и эталонной сводкой. Например, если в справочном резюме говорится: «Проворный аспирант перепрыгнул через хладнокровного профессора», а алгоритм генерирует резюме «Аспирант перепрыгнул профессора в прыжке», то оценка Rouge-1 будет равна 4/6. потому что есть 4 слова, которые перекрываются между двумя резюме (The, PhD, студент и профессор), из 6 слов в справочном резюме.

Rouge-2 сравним с Rouge-1, но измеряет перекрытие пар слов (биграмм) между сводкой и эталонной сводкой. Таким образом, в приведенном выше примере оценка Rouge-2 будет 3/5, потому что есть 3 пары слов, которые перекрываются (аспирант, аспирант и профессор) из 5 пар в справочном резюме.

И, наконец, Rouge-L измеряет самую длинную общую подпоследовательность между сводкой и эталонной сводкой. Он ищет самую длинную последовательность слов, которые появляются в обоих резюме, даже если они не в том же порядке. Например, если в справочном резюме говорится: «Проворный аспирант перепрыгнул через собранного профессора», а алгоритм генерирует сводку «Хладнокровный профессор был очищен проворным аспирантом», то оценка Rouge-L будет равна 6/ 7, потому что самая длинная общая подпоследовательность — это «Проворный аспирант перепрыгнул через собранного профессора», в которой 6 из 7 слов в справочном резюме.

Но почему нас должны волновать результаты Rouge Scores? Ну, во-первых, они дают нам количественный способ измерения качества текстовых резюме. Но что более важно, они помогают нам совершенствовать наши алгоритмы суммирования. Анализируя оценки Rouge для различных сводок, мы можем определить, где алгоритм не справляется, и изменить наш подход, чтобы улучшить оценки.

Теперь вы можете задаться вопросом: «Как мы можем быть уверены, что созданные человеком справочные сводки действительно хороши?»

Это фантастический вопрос! Один из способов обеспечить качество справочных сводок — создать их независимо друг от друга несколькими людьми, а затем сравнить друг с другом. Это помогает нам выявить любые расхождения и создать более точный золотой стандарт.

Итак, в заключение, Rouge Scores — важный инструмент для оценки качества текстовых резюме. Они обеспечивают количественную оценку того, насколько хорошо алгоритм обобщает текст по сравнению с справочной сводкой, созданной людьми. Руж-1, Руж-2,