ФОРМАТ РЯДА

Я использую hadoop 2.0.4 и работаю над анализом настроений в твиттере. Я использовал Flume для приема данных, но теперь данные Twitter должны храниться в таблице кустов.

Я создал таблицу, но ROW FORMAT SERDE выдает ошибку

«Невозможно проверить»

Пожалуйста, скажите мне, как действовать дальше.


person rahul    schedule 24.07.2015    source источник
comment
Не могли бы вы вставить предложение о создании таблицы Hive, пожалуйста?   -  person frb    schedule 24.07.2015


Ответы (3)


Вы используете пользовательский SerDe?

См. приведенную ниже информацию в Руководстве по языку. улья

Вы можете создавать таблицы с помощью собственного SerDe или собственного SerDe. Собственный SerDe используется, если ROW FORMAT не указан или указан ROW FORMAT DELIMITED.

Надеюсь, информация будет полезной.

person Raghu Nisanth    schedule 24.07.2015
comment
Сэр, но формат твиттера имеет тип JSON. Как быть с форматом твиттера json. Как его сохранить ?? - person rahul; 25.07.2015
comment
Пожалуйста, перейдите по ссылке, в которой обсуждается Serde для обработки данных JSON. Надеюсь, эта информация будет полезной. - person Raghu Nisanth; 26.07.2015

Вы можете попробовать добавить эту банку

hive-serdes-1.0-SNAPSHOT.jar

После добавления jar вы можете создать внешнюю таблицу куста, содержащую tweet_id и tweet_text, которая ссылается на каталог твитов для выполнения анализа настроений, подобного этому.

create external table load_tweets(id BIGINT,text STRING) ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe' LOCATION '/user/flume/tweets'

Вы можете обратиться к приведенной ниже ссылке для выполнения анализа настроений с помощью куста.

https://acadgild.com/blog/sentiment-analysis-on-tweets-with-apache-hive-using-afinn-dictionary/

person Kiran Krishna Innamuri    schedule 16.07.2016

Проверьте, добавили ли вы hive-serdes-1.0-SNAPSHOT.jar в каталог улья в папке lib. Ваш путь к каталогу куста будет тем, который вы указали в своем файле .bashrc.

person Priyanshu Sharma    schedule 18.10.2016