Я пытаюсь использовать scikit для классификации Наивного Басиса. У меня есть пара вопросов (также я новичок в scikit)
1) Алгоритмам Scikit требуется ввод в виде массива numpy и метка в виде массивов. В случае классификации текста должен ли я сопоставлять каждое свое слово с номером (идентификатором), сохраняя хэш слов в словаре и уникальный идентификатор, связанный с ним? это стандартная практика в scikit?
2) В случае присвоения одного и того же текста более чем одному классу, как мне действовать. Один из очевидных способов - воспроизвести каждый обучающий пример по одному для каждой связанной метки. Есть ли лучшее представление?
3) Аналогично для тестовых данных, как я могу получить более одного класса, связанного с тестом?
Я использую http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html в качестве моей базы.