Публикации по теме apache-pig [python, sql, lisp, ocaml, apache-pig]

Вопросы по теме 'apache-pig'

Какой язык я мог бы использовать для быстрого выполнения этой задачи суммирования базы данных?

Поэтому я написал программу на Python для выполнения небольшой задачи по обработке данных. Вот очень краткая спецификация на выдуманном языке вычислений, которые мне нужны: parse "%s %lf %s" aa bb cc | group_by aa | quickselect --key=bb 0:5 |...

1526 просмотров

18.04.2023

Получение информации из агрегированных данных блогов, как это сделать?

Я хотел бы знать, как получить данные из агрегированных журналов? Вот что у меня есть: - около 30 ГБ несжатых данных журнала ежедневно загружаются в HDFS (и скоро этот объем вырастет примерно до 100 ГБ) Это моя идея: - каждую ночь эти данные...

217 просмотров

logging database hadoop hbase apache-pig

12.05.2023

свинья хауп нужна для того, что я хочу сделать?

У меня к вам вопрос, ну и уточнение... Я разработал программу, которая использует сокращение карты hadoop, которая получает только столбец из набора данных (файл csv) и обрабатывает эти данные с помощью некоторых функций, поэтому эта программа...

131 просмотров

hadoop required apache-pig

10.01.2023

Как хранить сжатые файлы с помощью PigStorage в Apache Pig?

Apache Pig v0.7 может читать сжатые файлы без каких-либо дополнительных усилий с моей стороны, например: MyData = LOAD '/tmp/data.csv.gz' USING PigStorage(',') AS (timestamp, user, url); Я могу обработать эти данные и вывести их на диск:...

13213 просмотров

apache-pig

05.05.2023

Выполнение аналитических запросов к большим динамическим наборам данных

У меня есть требование, когда у меня есть большие наборы входящих данных в систему, которой я владею. Единица данных в этом наборе имеет набор неизменяемых атрибутов + присоединенное к ней состояние. Состояние динамическое и может измениться в...

410 просмотров

hadoop hive apache-pig

06.08.2023

Свинья: как разделить массив

у меня есть такой кортеж: ((item114,),1) ((item32,item31,),1) ((item81,item27,),2) последнее число - это частота элемента, поэтому элемент 114 имеет частоту. из 1, пункт 81 имеет частоту. из 2, теперь я хочу разделить его на кортеж формата:...

2214 просмотров

apache-pig

15.10.2022

Свинья проблема с загрузкой файла со сложным именем

мне нужно загрузить файл в свинью, который имеет длинное и сложное имя: dealnews-2011-04-01T12:00:00:00.211-02:00.csv Свин пожаловался: ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2999: Unexpected internal error....

1077 просмотров

apache-pig

16.03.2024

Как эффективно сортировать (упорядочивать) большие данные с помощью Hive?

Я хочу эффективно отсортировать большой набор данных (т.е. с помощью специального разделителя, как описано здесь: Как работает алгоритм сортировки MapReduce? ), но я хочу сделать это с помощью hive. Однако в руководстве по Hive указано, что «заказ...

4860 просмотров

hadoop hive mapreduce apache-pig

20.10.2022

используя TOKENIZE в PIG

Я пытаюсь использовать функцию TOKENIZE в PIG с документом, разделенным запятыми. Я хотел бы разделить на запятые, но НЕ на пробел. Например, я хотел бы, чтобы список (автомобиль, игрушечная машинка, кролик) был ((автомобиль), (игрушечная машинка),...

8742 просмотров

apache-pig

03.06.2023

как сохранить мешок свиньи в формате json

Я бегу Свинья example$ pig --version Apache Pig version 0.8.1-cdh3u1 (rexported) compiled Jul 18 2011, 08:29:40 на очень простом наборе данных example$ hadoop fs -cat /user/pavel/trivial.log 1 one 2 two 3 three Я пытаюсь...

3682 просмотров

json bag apache-pig

12.05.2022

Не могу запустить PIG

После установки Hadoop я устанавливаю Pig. Однако у меня есть следующие проблемы: когда я пытаюсь запустить свинью, оказывается, что в ее журнале есть препятствия: coba@dewi-laptop:/home/dewi/Work2/pig-0.8.0-cdh3u0/bin$ ./pig 2011-11-23...

230 просмотров

mysql hadoop apache-pig

25.02.2024

Какой может быть процедура/код для удаления строкового выражения из файла с помощью Apache Pig?

A = load '/home/wrdtest.txt'; B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word; C = filter B by word != 'the'; D = group C by word; E = foreach D generate COUNT(C) as count, group as word; F = order E by count desc; store F into...

1625 просмотров

hadoop apache-pig

21.02.2023

Поле ссылки во вложенном кортеже в PIG;

Я застрял на этом в течение нескольких часов, и я не могу понять, что я делаю неправильно. У меня есть отношение, "сгруппированное" со схемой grouped: {seedword: chararray,baggy: {outertup: (groupy: (seedword: chararray,coword: chararray))}}...

4604 просмотров

apache-pig

22.05.2022

Привязка к выводу Pig STORE или DUMP в Python

Я ищу «правильный» способ написать код Python, который может работать с выходными данными заданий Pig. Вот моя ситуация. Я написал сценарий Pig для обработки большого количества данных и вывода небольшого набора отношений. Объем выходных данных...

1332 просмотров

python apache-pig

17.06.2023

Как сгенерировать номер строки в свинье?

Я использую свинью для подготовки данных, и столкнулся с проблемой, которая кажется простой, но я не могу с ней справиться: например, у меня есть столбец имен name ------ Alicia Ana Benita Berta Bertha тогда как я могу добавить номер...

8287 просмотров

hadoop apache-pig

02.07.2023

Использование FILTER после FOREACH в Pig-Latin не удалось

Я новичок в Pig-Latin, и я обнаружил проблему с оператором FILTER. Посмотрите на пример: Предположим, у нас есть файл данных (test.txt), содержимое которого: 1,2,3 2,3,4 3,4,5 4,5,6 Я хочу выбрать записи, у которых 1-е поле равно «3»....

4808 просмотров

hadoop apache-pig

28.07.2022

Как вычислить сумму поля во всех строках из псевдонима

Что я хочу сделать, так это суммировать значения поля во всех строках псевдонима. Это должно быть просто, но почему-то я не могу найти ответ. Вероятно, это потому, что мне нужно скалярное значение, в то время как PIG обрабатывает наборы данных? Я...

8534 просмотров

hadoop apache-pig

31.07.2022

Разобрать строку в формате JSON в Pig

Я использую свинью для анализа данных, загруженных из Cassandra. Один из столбцов, которые я получаю, представляет собой строку с идентификаторами продуктов и информацией о продукте в формате JSON: row | ... | items...

1110 просмотров

json regex apache-pig

25.08.2022

Выполнение скрипта PIG через java и grunt

Каким-то образом, если я использую оболочку grunt для выполнения скрипта свиньи, он работает нормально, но если я пробую режим Java, он каким-то образом показывает ошибку «Не удалось создать DataStorage». Команда режима ворчания: «pig -x...

2664 просмотров

hadoop apache-pig

03.08.2022

Использование Hadoop для обработки данных из нескольких источников данных

Подходят ли mapreduce и любые другие технологии Hadoop (HBase, Hive, pig и т. д.) в ситуациях, когда у вас есть несколько входных файлов и когда данные необходимо сравнивать между различными источниками данных. В прошлом я написал несколько задач...

2464 просмотров

hadoop hbase apache-pig

17.04.2023