Существуют ли какие-либо последние предварительно обученные многоязычные вложения слов (несколько языков совместно отображаются в одно и то же векторное пространство)?
Я просмотрел следующее, но они мне не подходят:
- FastText / MUSE (https://fasttext.cc/docs/en/aligned-vectors.html): это кажется слишком старым, и векторы слов не используют информацию подслов / фрагментов слова.
- ЛАЗЕР (https://github.com/yannvgn/laserembeddings): сейчас я использую этот , он использует информацию подслова (через BPE), однако рекомендуется не использовать это для встраивания слов, потому что он предназначен для встраивания предложений (https://github.com/facebookresearch/LASER/issues/69).
- Многоязычный BERT (bert-base-многоязычный-без корпуса в https://huggingface.co/transformers/pretrained_models.html): это контекстуализированные вложения, которые можно использовать для встраивания предложений, и кажется, что они не подходят для встраивания слов без контекстов.
Вот проблема, которую я пытаюсь решить:
У меня есть список названий компаний, которые могут быть на любом языке (в основном на английском), и у меня есть список ключевых слов на английском, чтобы измерить, насколько название компании близко к ключевым словам. Теперь у меня есть простое решение для сопоставления ключевых слов, но я хочу улучшить его, используя предварительно обученные вложения. Как вы можете видеть из следующих примеров, существует несколько проблем:
- ключевое слово и название бренда не разделяются пробелом (теперь я использую пакет "wordsegment" для разделения слов на подслова), поэтому встраивание с информацией о подслове должно очень помочь
- список ключевых слов невелик, и название компании может быть на разных языках (поэтому я хочу использовать встраивание, потому что «футбол» близок к «футболу»)
Примеры названий компаний: «cheapfootball ltd.», «Wholesalefootball ltd.», «Footballer ltd.», «Soccershop ltd.»
Примеры ключевых слов: "футбол"
the word vectors are not using subwords / wordpiece information.
- Нет, вложения слов на основе fasttext создаются с использованием подслов n-граммов. См .: github.com/facebookresearch/fastText/issues/475 - person Gokul NC   schedule 27.07.2020