Встраивание слов в корпус отзывов пользователей/клиентов

Большинство общедоступных вложений, которые я знаю, выполняются в новостных статьях, в которых используется другой язык/слова, чем тот, который используется в обзорах пользователей/клиентов.

Хотя такие вложения можно использовать в задачах NLP, касающихся обзоров и пользовательского контента, я думаю, что разница в языке играет важную роль, и поэтому я бы предпочел использовать вложения, обученные пользовательскому контенту, такому как обзоры продуктов.

Я ищу корпус обзоров или комментариев на английском языке — хотя на немецком и голландском также были бы полезны — для создания вложений или, альтернативно, вложений, уже обученных такому корпусу.


person David Batista    schedule 27.05.2016    source источник
comment
просто из любопытства, что вы подразумеваете под вложениями?   -  person patrick    schedule 27.05.2016
comment
Любые методы языкового моделирования и изучения признаков, в которых слова сопоставляются с векторами действительных чисел в низкоразмерном пространстве относительно размера словаря, например: Google Word2vec или GloVe Стэнфордского университета.   -  person David Batista    schedule 28.05.2016
comment
спасибо, это имеет смысл! Согласно этой цитате (источник) Word2vec создает векторы, которые являются распределенными числовыми представлениями характеристик слова, таких как как контекст отдельных слов. Значит, это векторы частот слов, словосочетаний и т. д.? Как матрица функций, но потенциально с разными категориями, смешанными вместе? Просто пытаюсь понять, чем они отличаются от стандартных векторов отсчетов, частот, которые обычно используются в НЛП...   -  person patrick    schedule 28.05.2016
comment
Взгляните на этот руководство/презентацию от Миколова, автора word2vec (то есть моделей CBOW и Skip-Gram)   -  person David Batista    schedule 29.05.2016


Ответы (1)


Найдены два набора данных/корпуса на английском языке:

https://www.yelp.com/dataset_challenge

https://snap.stanford.edu/data/web-Amazon.html

на немецком:

http://www.uni-weimar.de/en/media/chairs/webis/corpora/corpus-webis-cls-10/

person David Batista    schedule 27.05.2016