Почему код, который я использовал для загрузки предварительно обученного word2vec из корпуса новостей Google (на английском языке), не работает для загрузки корпуса новостей Google (на индонезийском языке)?

Я работаю над межкультурным языковым исследованием, в котором участвуют англо- и индонезийцы.

В англоязычных участниках я успешно загружаю предварительно обученный word2vec из корпуса новостей Google (файл: GoogleNews-vectors-negative300.bin).

Мне было интересно, потому что я не могу загрузить корпус новостей Google для индонезийского языка. (файл: id.bin, источник файла: https://github.com/Kyubyong/wordvectors) .

Вот рабочий код:

import gensim
from gensim import models
from gensim.models import Word2Vec
import math
import sys
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

model = gensim.models.word2vec.Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)

Вот не рабочий код:

import gensim
from gensim import models
from gensim.models import Word2Vec
import math
import sys
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

model = gensim.models.word2vec.Word2Vec.load_word2vec_format('id.bin', binary=True)

Каков правильный способ сделать это?


person Annasya Masitah    schedule 06.11.2018    source источник


Ответы (1)


Вы должны использовать load() вместо load_word2vec_format(). load_word2vec_format предназначен для модели, созданной Google, а не для модели, созданной gensim.

import gensim

model = gensim.models.word2vec.Word2Vec.load('id.bin')
person Rob Bricheno    schedule 06.11.2018