Более глубокий взгляд на многозначные вложения

В Мессинге с переводом намерений - Часть I мы показали, как алгоритм MUSE, основанный на GAN, работает с проблемой перевода намерений. При этом мы проверили результаты Conneau et al. для проблемы перевода слов и воспроизвел результаты около 80% с P @ 1 между испанским и английским языками.

P @ 1 означает, что для всех доступных известных переводов исходного слова, которое есть в словаре, оставьте его. Затем для всех возможных переводов, предсказываемых вашим алгоритмом, оставьте только один. P @ 1 - процент правильных совпадений между двумя словами.

Хотя мы смогли воспроизвести эти цифры, мы решили глубже погрузиться в некоторые многозначные слова, имеющие большое значение в некоторых конкретных областях, таких как банковское дело и страхование.

Наша гипотеза заключалась в том, что если слово появляется в двух контекстах с двумя разными значениями, можно ожидать, что его встраивание объединит все эти значения. Затем, проделав некоторую вложение алгебры, вы обнаружите, что самые близкие слова - это слова, имеющие отношение к этим двум значениям.

Поскольку известно, что Википедия имеет тенденцию к музыке и мультимедиа, мы вычислили наши собственные вложения FastText из корпуса Europarl, используя реализацию gensim для двойной проверки результатов. Тем не менее Europarl меньше по размеру, менее общий и имеет уклон в сторону европейской политики.

Мы обнаружили, что в большинстве случаев вложения схватывают только одно из возможных значений слова.

Несколько примеров в переводе с ES на EN могут помочь проиллюстрировать эту проблему. В испанском языке слова cuenta и seguro очень многозначны. cuenta переводится как «account», что также многозначно в английском языке, поскольку оно имеет другое значение в «принять во внимание…» и «банковский счет». Случай с seguro очень похож. Его можно перевести как «уверен», «страхование», «гарантия» или «замок».

В таблице 1 показано сходство между вложениями для слов seguro и cuenta, просто учитывая слова, появляющиеся в наборе банковских данных. В общем, они не находят похожих слов в том смысле, что большинство оценок отрицательные. Когда они это делают, похоже, что связь вызвана их графическим сходством, что актуально для алгоритма FastText. Переводы показывают, что в целом они представляют лишь одно из значений.

Глядя на общие совпадения слов, можно сделать несколько интересных выводов. Алгоритм легко находит совпадения среди кластеров именованных сущностей (NE). Страны, имена людей, месяцы или дни недели быстро отображаются, но они не обязательно находят точное совпадение с наивысшим баллом.

Как показано в таблице 2, из 20 совпадений с наилучшими показателями для данного слова 13 являются NE (чаще всего названия стран и цифры). Алгоритму кажется особенно легко найти им подходящее совпадение.

Другой интересный факт заключается в том, что, поскольку вложения представляют свое значение посредством слов, совпадающих с ними, значения цифр обычно взаимозаменяемы, как и дни недели, в отличие от названий стран, которые обычно совпадают правильно. Мы наблюдали такое поведение в течение нескольких месяцев и сезонов.

Поскольку оценка NE настолько высока, любое намерение, содержащее NE, обычно сопоставляется с намерением с NE в нем, при условии, что они одного типа. Это приводит к его отображению и заставляет остальные слова становиться менее актуальными для отображения. В таблице 3 приведены некоторые примеры этого факта. Первые два примера обеспечивают правильное соответствие, а остальные - плохое. Первый пример - наилучшее соответствие (слово или намерение) намерению «casa + blanca» (Белый дом). Как можно видеть, цветные слова доминируют в оценках, даже если в наборе данных есть другие намерения о политиках и людях, связанных с Белым домом.

Выводы

Мы вычислили вложения слов с помощью FastText для Википедии и Europarl и выполнили сопоставление слов и намерений в новостной ленте и банковских корпусах.

Неожиданно для нас кажется, что вложения улавливают только одно значение слова, что проблематично для многозначных слов. Чтобы выяснить причину, в будущем мы планируем построить синтетический корпус со сбалансированным смысловым представлением многозначных слов. Это должно помочь нам определить, вызваны ли моносемические вложения несбалансированным представлением значений или несоответствующей целью оптимизации.

Кроме того, мы заметили, что NE обычно сопоставляются с NE того же типа. В большинстве случаев названия стран переводятся хорошо, но цифры, дни недели, цвета или времена года не могут быть переведены правильно. Их часто переводят как другие цифры, дни недели, цвета или времена года, но не обязательно правильные.

Наконец, NE имеют очень высокие результаты в переводе намерений, даже если они не являются правильным переводом, и искажают переводы намерений, где бы они ни появлялись.

Ознакомьтесь с другими статьями в нашей публикации Building Lang.ai. Мы пишем о Машинном обучении, Разработке программного обеспечения и о нашей Корпоративной культуре.

Если вам понравилась эта история, может быть, она вам тоже понравится…