Apache Pig v0.7 может читать сжатые файлы без каких-либо дополнительных усилий с моей стороны, например:
MyData = LOAD '/tmp/data.csv.gz' USING PigStorage(',') AS (timestamp, user, url);
Я могу обработать эти данные и вывести их на диск:
PerUser = GROUP MyData BY user;
UserCount = FOREACH PerUser GENERATE group AS user, COUNT(MyData) AS count;
STORE UserCount INTO '/tmp/usercount' USING PigStorage(',');
Но выходной файл не сжат:
/tmp/usercount/part-r-00000
Есть ли способ указать команде STORE
выводить содержимое в формате gzip? Обратите внимание, что в идеале мне нужен ответ, применимый к Pig 0.6, поскольку я хочу использовать Amazon Elastic MapReduce; но если есть решение для любой версии Pig, я бы хотел его услышать.