Вопросы по теме 'apache-pig'
Какой язык я мог бы использовать для быстрого выполнения этой задачи суммирования базы данных?
Поэтому я написал программу на Python для выполнения небольшой задачи по обработке данных.
Вот очень краткая спецификация на выдуманном языке вычислений, которые мне нужны:
parse "%s %lf %s" aa bb cc | group_by aa | quickselect --key=bb 0:5 |...
1526 просмотров
schedule
18.04.2023
Получение информации из агрегированных данных блогов, как это сделать?
Я хотел бы знать, как получить данные из агрегированных журналов? Вот что у меня есть: - около 30 ГБ несжатых данных журнала ежедневно загружаются в HDFS (и скоро этот объем вырастет примерно до 100 ГБ) Это моя идея: - каждую ночь эти данные...
217 просмотров
schedule
12.05.2023
свинья хауп нужна для того, что я хочу сделать?
У меня к вам вопрос, ну и уточнение...
Я разработал программу, которая использует сокращение карты hadoop, которая получает только столбец из набора данных (файл csv) и обрабатывает эти данные с помощью некоторых функций, поэтому эта программа...
131 просмотров
schedule
10.01.2023
Как хранить сжатые файлы с помощью PigStorage в Apache Pig?
Apache Pig v0.7 может читать сжатые файлы без каких-либо дополнительных усилий с моей стороны, например:
MyData = LOAD '/tmp/data.csv.gz' USING PigStorage(',') AS (timestamp, user, url);
Я могу обработать эти данные и вывести их на диск:...
13213 просмотров
schedule
05.05.2023
Выполнение аналитических запросов к большим динамическим наборам данных
У меня есть требование, когда у меня есть большие наборы входящих данных в систему, которой я владею.
Единица данных в этом наборе имеет набор неизменяемых атрибутов + присоединенное к ней состояние. Состояние динамическое и может измениться в...
410 просмотров
schedule
06.08.2023
Свинья: как разделить массив
у меня есть такой кортеж:
((item114,),1)
((item32,item31,),1)
((item81,item27,),2)
последнее число - это частота элемента, поэтому элемент 114 имеет частоту. из 1, пункт 81 имеет частоту. из 2, теперь я хочу разделить его на кортеж формата:...
2214 просмотров
schedule
15.10.2022
Свинья проблема с загрузкой файла со сложным именем
мне нужно загрузить файл в свинью, который имеет длинное и сложное имя:
dealnews-2011-04-01T12:00:00:00.211-02:00.csv
Свин пожаловался:
ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2999: Unexpected internal error....
1077 просмотров
schedule
16.03.2024
Как эффективно сортировать (упорядочивать) большие данные с помощью Hive?
Я хочу эффективно отсортировать большой набор данных (т.е. с помощью специального разделителя, как описано здесь: Как работает алгоритм сортировки MapReduce? ), но я хочу сделать это с помощью hive.
Однако в руководстве по Hive указано, что «заказ...
4860 просмотров
schedule
20.10.2022
используя TOKENIZE в PIG
Я пытаюсь использовать функцию TOKENIZE в PIG с документом, разделенным запятыми. Я хотел бы разделить на запятые, но НЕ на пробел. Например, я хотел бы, чтобы список (автомобиль, игрушечная машинка, кролик) был ((автомобиль), (игрушечная машинка),...
8742 просмотров
schedule
03.06.2023
как сохранить мешок свиньи в формате json
Я бегу Свинья
example$ pig --version
Apache Pig version 0.8.1-cdh3u1 (rexported)
compiled Jul 18 2011, 08:29:40
на очень простом наборе данных
example$ hadoop fs -cat /user/pavel/trivial.log
1 one
2 two
3 three
Я пытаюсь...
3682 просмотров
schedule
12.05.2022
Не могу запустить PIG
После установки Hadoop я устанавливаю Pig. Однако у меня есть следующие проблемы: когда я пытаюсь запустить свинью, оказывается, что в ее журнале есть препятствия:
coba@dewi-laptop:/home/dewi/Work2/pig-0.8.0-cdh3u0/bin$ ./pig
2011-11-23...
230 просмотров
schedule
25.02.2024
Какой может быть процедура/код для удаления строкового выражения из файла с помощью Apache Pig?
A = load '/home/wrdtest.txt';
B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word;
C = filter B by word != 'the';
D = group C by word;
E = foreach D generate COUNT(C) as count, group as word;
F = order E by count desc;
store F into...
1625 просмотров
schedule
21.02.2023
Поле ссылки во вложенном кортеже в PIG;
Я застрял на этом в течение нескольких часов, и я не могу понять, что я делаю неправильно. У меня есть отношение, "сгруппированное" со схемой
grouped: {seedword: chararray,baggy: {outertup: (groupy: (seedword: chararray,coword: chararray))}}...
4604 просмотров
schedule
22.05.2022
Привязка к выводу Pig STORE или DUMP в Python
Я ищу «правильный» способ написать код Python, который может работать с выходными данными заданий Pig.
Вот моя ситуация. Я написал сценарий Pig для обработки большого количества данных и вывода небольшого набора отношений. Объем выходных данных...
1332 просмотров
schedule
17.06.2023
Как сгенерировать номер строки в свинье?
Я использую свинью для подготовки данных, и столкнулся с проблемой, которая кажется простой, но я не могу с ней справиться:
например, у меня есть столбец имен
name
------
Alicia
Ana
Benita
Berta
Bertha
тогда как я могу добавить номер...
8287 просмотров
schedule
02.07.2023
Использование FILTER после FOREACH в Pig-Latin не удалось
Я новичок в Pig-Latin, и я обнаружил проблему с оператором FILTER. Посмотрите на пример:
Предположим, у нас есть файл данных (test.txt), содержимое которого:
1,2,3
2,3,4
3,4,5
4,5,6
Я хочу выбрать записи, у которых 1-е поле равно «3»....
4808 просмотров
schedule
28.07.2022
Как вычислить сумму поля во всех строках из псевдонима
Что я хочу сделать, так это суммировать значения поля во всех строках псевдонима. Это должно быть просто, но почему-то я не могу найти ответ. Вероятно, это потому, что мне нужно скалярное значение, в то время как PIG обрабатывает наборы данных? Я...
8534 просмотров
schedule
31.07.2022
Разобрать строку в формате JSON в Pig
Я использую свинью для анализа данных, загруженных из Cassandra. Один из столбцов, которые я получаю, представляет собой строку с идентификаторами продуктов и информацией о продукте в формате JSON:
row | ... | items...
1110 просмотров
schedule
25.08.2022
Выполнение скрипта PIG через java и grunt
Каким-то образом, если я использую оболочку grunt для выполнения скрипта свиньи, он работает нормально, но если я пробую режим Java, он каким-то образом показывает ошибку «Не удалось создать DataStorage».
Команда режима ворчания: «pig -x...
2664 просмотров
schedule
03.08.2022
Использование Hadoop для обработки данных из нескольких источников данных
Подходят ли mapreduce и любые другие технологии Hadoop (HBase, Hive, pig и т. д.) в ситуациях, когда у вас есть несколько входных файлов и когда данные необходимо сравнивать между различными источниками данных.
В прошлом я написал несколько задач...
2464 просмотров
schedule
17.04.2023