используя TOKENIZE в PIG

Я пытаюсь использовать функцию TOKENIZE в PIG с документом, разделенным запятыми. Я хотел бы разделить на запятые, но НЕ на пробел. Например, я хотел бы, чтобы список (автомобиль, игрушечная машинка, кролик) был ((автомобиль), (игрушечная машинка), (кролик), а не ((автомобиль), (игрушка), (автомобиль), (кролик)) , Есть ли способ для этого?


person YuliaPro    schedule 17.11.2011    source источник


Ответы (2)


Вы видели STRSPLIT для разделения только запятой? ?

(это работает для CHARARRAY, как и для TOKENIZE)

person Romain    schedule 18.11.2011

Альтернативный способ,

Вы также можете попробовать с оператором Flatten

Пример:

Ввод -> (а, (б, в))

B = foreach A генерирует $0, сглаживает ($1)

Выход -> (а, б, в)

Совместное использование Flatten и tokenize

Вы можете прочитать задачу о подсчете слов здесь

person Debaditya    schedule 24.01.2012