Обвар+ЛЗО+Протобуф

Есть ли какие-либо указания, чтобы заставить Scalding работать с данными LZO Protobuf в HDFS?

Я пытаюсь прочитать файлы, которые хранятся в двоичном Protobuf и сжаты в LZO с помощью Scalding. Можем ли мы использовать Elephantbird для чтения этих файлов? Любые указатели будут оценены!

Я просмотрел LzoTraits и LzoProtobufScheme? Но я не уверен, как я должен использовать его для чтения данных? Любые примеры были бы замечательными!


person thinker25    schedule 14.01.2014    source источник


Ответы (1)


Вот пример:

case class SomeProto() extends FixedPathSource("/my/greatData/*")
  with LzoProtobuf[MyProtoClassHere] {
    override def column = classOf[MyProtoClassHere]
}

Вы можете смешивать с другими типами абстрактных базовых источников (например, TimePathedSource или MostRecentGoodSource) аналогичным образом. Вы можете смешать with LocalTapSource, если хотите использовать трюк Hadoop-inside-cascading-local (если вы не работаете в каскадном локальном режиме, вам это не нужно).

person Oscar Boykin    schedule 14.02.2014
comment
Спасибо. Будет ли этот же класс работать для записи сжатых Lzo файлов protobuf? - person thinker25; 04.03.2014
comment
Еще один быстрый вопрос. Как читать двоичные файлы protobuf, которые не сжаты lzo? - person thinker25; 18.04.2014