Я пытаюсь использовать функцию TOKENIZE в PIG с документом, разделенным запятыми. Я хотел бы разделить на запятые, но НЕ на пробел. Например, я хотел бы, чтобы список (автомобиль, игрушечная машинка, кролик) был ((автомобиль), (игрушечная машинка), (кролик), а не ((автомобиль), (игрушка), (автомобиль), (кролик)) , Есть ли способ для этого?
используя TOKENIZE в PIG
Ответы (2)
Вы видели STRSPLIT для разделения только запятой? ?
(это работает для CHARARRAY, как и для TOKENIZE)
person
Romain
schedule
18.11.2011
Альтернативный способ,
Вы также можете попробовать с оператором Flatten
Пример:
Ввод -> (а, (б, в))
B = foreach A генерирует $0, сглаживает ($1)
Выход -> (а, б, в)
Совместное использование Flatten и tokenize
Вы можете прочитать задачу о подсчете слов здесь
person
Debaditya
schedule
24.01.2012