Следует ли пометить предложение или весь обзор для тренировочного набора?

Я новичок в сфере аналитики. Возможно, этот вопрос для вас глупый. Я работаю над классификацией обзоров, используя R. Я должен классифицировать обзор по 50 различным категориям. Я вручную помечаю данные для обучения модели. Я немного запутался, как пометить отзыв?

Что я здесь делаю?
Сначала я преобразовал один обзор в предложения, а затем присвоил этим предложениям определенную категорию. Я делаю прямо здесь?

Или я должен давать тег категории отзыву, не разбивая его на предложения? Что делать, если отзыв подпадает под более чем 1 категорию?


person Kishore    schedule 12.12.2016    source источник
comment
вам нужно сгенерировать функции из текста, прежде чем тренироваться, какие функции вы генерируете сейчас?   -  person Sandipan Dey    schedule 12.12.2016
comment
Я использую мешок слов   -  person Kishore    schedule 12.12.2016


Ответы (1)


У каждого отзыва может быть несколько ярлыков. Какие бы функции вы ни использовали для своего классификатора, это не влияет на ваш процесс маркировки.

Ваши обзоры с пометкой (для обучения или оценки) должны выглядеть следующим образом:

ID        Content                    Tags
review#1, "content of the review#1", Mexican food,spicy
review#2, "content of the review#2", American food,apple pie,dessert 

где "мексиканская еда", "пряный", "яблочный пирог", "десерт" и "американская еда" - все возможные теги. Для каждого обзора вам нужно указать только те теги, которые применимы. По умолчанию мы предполагаем, что другие теги не применяются.

Во время обучения вы должны выбрать классификатор, который работает для мультикласса. -метка.

person greeness    schedule 14.12.2016