Реализация Word2Vec на языках, отличных от английского?

Можно ли реализовать модели Word2Vec на языках, не основанных на английском алфавите, таких как урду, тамильский и т. д.? Если это так, может кто-нибудь предложить мне путь.

djokester 08.03.2017 источник

comment

просто предварительно обработайте данные и преобразуйте их в числовой формат, создайте словарь (слово, идентификатор). Затем передайте пронумерованный файл в word2vec. Вы будете настроены идти. Просто во время запроса возьмите свой ввод, используйте словарь и преобразуйте его в пронумерованную версию, прежде чем передавать его обученной модели! - user3639557 15.03.2017

Ответы (1)

arrow_upward
2
arrow_downward

Да, я думаю, что это должно быть возможно, если у вас есть токенизатор (т. е. разделитель слов) для вашего языка и, возможно, лемматизатор или стеммер, если у вас небольшие данные и вы хотите заменить флективные словоформы некоторым представлением базовой формы.

Вот базовый пример обучения модели с помощью gensim в Python:

from gensim import models

training_corpus = "corpus.txt"

with open(training_corpus,'r') as f:
    plain_text = f.read()

sentences = plain_text.split("\n")  # Assume one sentence per line
tokenized = []

for sentence in sentences:
    # White-space-based word splitting, replace with a better tokenizer
    tokens = sentence.strip().lower().split(" ")
    tokenized.append(tokens)

# Train your model, see gensim documentation for parameters
model = models.Word2Vec(tokenized, min_count=3, size=50)

azeldes 08.03.2017

comment

попробовать. - djokester; 09.03.2017

Реализация Word2Vec на языках, отличных от английского?

Ответы (1)

Вопросы по теме