Как читать исходный текст в Hadoop, разделенный специальным символом

В моем формате данных вместо новой строки используется \0. Таким образом, читатель textLine по умолчанию не работает. Как я могу настроить его для чтения строк, разделенных специальным символом?

Если невозможно настроить LineReader, возможно, можно применить специальный потоковый процессор (tr "\0" "\n"), не знаю, как это сделать.

yura 25.08.2012 источник

Ответы (3)

arrow_upward
1
arrow_downward

Вы можете написать свой собственный класс InputFormat, который разбивает данные на \0 вместо \n. Пошаговое руководство о том, как это сделать, см. здесь: http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat

Суть в том, что вам нужно создать подкласс по умолчанию InputFormat или любой из его подклассов и определите свой собственный RecordReader с помощью пользовательских правил. Для получения дополнительной информации вы можете обратиться к документации по InputFormat.

HypnoticSheep 27.08.2012

arrow_upward
2
arrow_downward

Для этой цели существует свойство конфигурации "textinputformat.record.delimiter". Вы можете изменить разделитель EOL по умолчанию ("\n"), изменив значение этого свойства на "\0".

Для получения дополнительной информации перейдите сюда: http://amalgjose.wordpress.com/2013/05/27/custom-text-input-format-record-delimiter-for-hadoop

Также есть аналогичный вопрос об изменении разделителя по умолчанию в spark, что тоже может быть полезно: Установка textinputformat.record.delimiter в spark

k-sever 26.03.2014

arrow_upward
0
arrow_downward

Как насчет того, будет ли работать схема TextDelimited? http://docs.cascading.org/cascading/1.2/javadoc/cascading/scheme/TextDelimited.html

Это позволяет избежать написания собственных InputFormat и т.д.

Примеры текстовых разделителей приведены в https://github.com/Cascading/Impatient/wiki/Part. -2

Paco 03.01.2013

Вопросы по теме

Сбой междоменного HTTP-запроса в AngularJS
не могу создать каталог с помощью mkdir
Почему в моем запросе не работает функция Neo4j None?
несколько растровых изображений против рисунков - влияние на производительность и память
удаление элемента в конкретном связанном списке
MongoDB: последняя запись для каждой категории по метке времени
Невероятно, но порядок просмотра раскадровки не соблюдается для представлений контейнера, исправить?
Django REST Как правильно хешировать пароль
Передача NSString между классами
Ошибка Ajax: код ответа 200
Приложение WinRT зависает при вызове BitmapDecoder.CreateAsync(stream)
Ошибка в поле выбора OpenERP версии 7
установить паруса вручную на сервер ubuntu
подстановочный знак classpath в @PropertySource
Получить и удержать вызов в twilio
Столбец автозаполнения на основе данных другого столбца
Фильтрация в пандах: исключение строк, содержащих часть строки [дубликаты]
Получить значения заголовков в ASP.NET MVC
Почему опечатка в объявлении функции Haskell приводит к тому, что GHCi выдает ошибки вокруг ранее скомпилированного кода?
как перепривязать сетку данных Silverlight