Я работаю над межкультурным языковым исследованием, в котором участвуют англо- и индонезийцы.
В англоязычных участниках я успешно загружаю предварительно обученный word2vec из корпуса новостей Google (файл: GoogleNews-vectors-negative300.bin).
Мне было интересно, потому что я не могу загрузить корпус новостей Google для индонезийского языка. (файл: id.bin, источник файла: https://github.com/Kyubyong/wordvectors) .
Вот рабочий код:
import gensim
from gensim import models
from gensim.models import Word2Vec
import math
import sys
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')
model = gensim.models.word2vec.Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
Вот не рабочий код:
import gensim
from gensim import models
from gensim.models import Word2Vec
import math
import sys
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')
model = gensim.models.word2vec.Word2Vec.load_word2vec_format('id.bin', binary=True)
Каков правильный способ сделать это?