Вопросы по теме 'apache-pig'

Какой язык я мог бы использовать для быстрого выполнения этой задачи суммирования базы данных?
Поэтому я написал программу на Python для выполнения небольшой задачи по обработке данных. Вот очень краткая спецификация на выдуманном языке вычислений, которые мне нужны: parse "%s %lf %s" aa bb cc | group_by aa | quickselect --key=bb 0:5 |...
1526 просмотров
schedule 18.04.2023

Получение информации из агрегированных данных блогов, как это сделать?
Я хотел бы знать, как получить данные из агрегированных журналов? Вот что у меня есть: - около 30 ГБ несжатых данных журнала ежедневно загружаются в HDFS (и скоро этот объем вырастет примерно до 100 ГБ) Это моя идея: - каждую ночь эти данные...
217 просмотров
schedule 12.05.2023

свинья хауп нужна для того, что я хочу сделать?
У меня к вам вопрос, ну и уточнение... Я разработал программу, которая использует сокращение карты hadoop, которая получает только столбец из набора данных (файл csv) и обрабатывает эти данные с помощью некоторых функций, поэтому эта программа...
131 просмотров
schedule 10.01.2023

Как хранить сжатые файлы с помощью PigStorage в Apache Pig?
Apache Pig v0.7 может читать сжатые файлы без каких-либо дополнительных усилий с моей стороны, например: MyData = LOAD '/tmp/data.csv.gz' USING PigStorage(',') AS (timestamp, user, url); Я могу обработать эти данные и вывести их на диск:...
13213 просмотров
schedule 05.05.2023

Выполнение аналитических запросов к большим динамическим наборам данных
У меня есть требование, когда у меня есть большие наборы входящих данных в систему, которой я владею. Единица данных в этом наборе имеет набор неизменяемых атрибутов + присоединенное к ней состояние. Состояние динамическое и может измениться в...
410 просмотров
schedule 06.08.2023

Свинья: как разделить массив
у меня есть такой кортеж: ((item114,),1) ((item32,item31,),1) ((item81,item27,),2) последнее число - это частота элемента, поэтому элемент 114 имеет частоту. из 1, пункт 81 имеет частоту. из 2, теперь я хочу разделить его на кортеж формата:...
2214 просмотров
schedule 15.10.2022

Свинья проблема с загрузкой файла со сложным именем
мне нужно загрузить файл в свинью, который имеет длинное и сложное имя: dealnews-2011-04-01T12:00:00:00.211-02:00.csv Свин пожаловался: ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2999: Unexpected internal error....
1077 просмотров
schedule 16.03.2024

Как эффективно сортировать (упорядочивать) большие данные с помощью Hive?
Я хочу эффективно отсортировать большой набор данных (т.е. с помощью специального разделителя, как описано здесь: Как работает алгоритм сортировки MapReduce? ), но я хочу сделать это с помощью hive. Однако в руководстве по Hive указано, что «заказ...
4860 просмотров
schedule 20.10.2022

используя TOKENIZE в PIG
Я пытаюсь использовать функцию TOKENIZE в PIG с документом, разделенным запятыми. Я хотел бы разделить на запятые, но НЕ на пробел. Например, я хотел бы, чтобы список (автомобиль, игрушечная машинка, кролик) был ((автомобиль), (игрушечная машинка),...
8742 просмотров
schedule 03.06.2023

как сохранить мешок свиньи в формате json
Я бегу Свинья example$ pig --version Apache Pig version 0.8.1-cdh3u1 (rexported) compiled Jul 18 2011, 08:29:40 на очень простом наборе данных example$ hadoop fs -cat /user/pavel/trivial.log 1 one 2 two 3 three Я пытаюсь...
3682 просмотров
schedule 12.05.2022

Не могу запустить PIG
После установки Hadoop я устанавливаю Pig. Однако у меня есть следующие проблемы: когда я пытаюсь запустить свинью, оказывается, что в ее журнале есть препятствия: coba@dewi-laptop:/home/dewi/Work2/pig-0.8.0-cdh3u0/bin$ ./pig 2011-11-23...
230 просмотров
schedule 25.02.2024

Какой может быть процедура/код для удаления строкового выражения из файла с помощью Apache Pig?
A = load '/home/wrdtest.txt'; B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word; C = filter B by word != 'the'; D = group C by word; E = foreach D generate COUNT(C) as count, group as word; F = order E by count desc; store F into...
1625 просмотров
schedule 21.02.2023

Поле ссылки во вложенном кортеже в PIG;
Я застрял на этом в течение нескольких часов, и я не могу понять, что я делаю неправильно. У меня есть отношение, "сгруппированное" со схемой grouped: {seedword: chararray,baggy: {outertup: (groupy: (seedword: chararray,coword: chararray))}}...
4604 просмотров
schedule 22.05.2022

Привязка к выводу Pig STORE или DUMP в Python
Я ищу «правильный» способ написать код Python, который может работать с выходными данными заданий Pig. Вот моя ситуация. Я написал сценарий Pig для обработки большого количества данных и вывода небольшого набора отношений. Объем выходных данных...
1332 просмотров
schedule 17.06.2023

Как сгенерировать номер строки в свинье?
Я использую свинью для подготовки данных, и столкнулся с проблемой, которая кажется простой, но я не могу с ней справиться: например, у меня есть столбец имен name ------ Alicia Ana Benita Berta Bertha тогда как я могу добавить номер...
8287 просмотров
schedule 02.07.2023

Использование FILTER после FOREACH в Pig-Latin не удалось
Я новичок в Pig-Latin, и я обнаружил проблему с оператором FILTER. Посмотрите на пример: Предположим, у нас есть файл данных (test.txt), содержимое которого: 1,2,3 2,3,4 3,4,5 4,5,6 Я хочу выбрать записи, у которых 1-е поле равно «3»....
4808 просмотров
schedule 28.07.2022

Как вычислить сумму поля во всех строках из псевдонима
Что я хочу сделать, так это суммировать значения поля во всех строках псевдонима. Это должно быть просто, но почему-то я не могу найти ответ. Вероятно, это потому, что мне нужно скалярное значение, в то время как PIG обрабатывает наборы данных? Я...
8534 просмотров
schedule 31.07.2022

Разобрать строку в формате JSON в Pig
Я использую свинью для анализа данных, загруженных из Cassandra. Один из столбцов, которые я получаю, представляет собой строку с идентификаторами продуктов и информацией о продукте в формате JSON: row | ... | items...
1110 просмотров
schedule 25.08.2022

Выполнение скрипта PIG через java и grunt
Каким-то образом, если я использую оболочку grunt для выполнения скрипта свиньи, он работает нормально, но если я пробую режим Java, он каким-то образом показывает ошибку «Не удалось создать DataStorage». Команда режима ворчания: «pig -x...
2664 просмотров
schedule 03.08.2022

Использование Hadoop для обработки данных из нескольких источников данных
Подходят ли mapreduce и любые другие технологии Hadoop (HBase, Hive, pig и т. д.) в ситуациях, когда у вас есть несколько входных файлов и когда данные необходимо сравнивать между различными источниками данных. В прошлом я написал несколько задач...
2464 просмотров
schedule 17.04.2023