Вопросы по теме 'hadoop-streaming'

hadoop-streaming: как уменьшить размер ввода, вычисляя задачу? и как это исправить?
Я вижу следующее в журнале jobtracker: 011-11-02 10:04:09,595 WARN org.apache.hadoop.mapred.JobInProgress: No room for reduce task. Node tracker_worker1:localhost/127.0.0.1:52295 has 62087933952 bytes free; but we expect reduce input to take...
255 просмотров
schedule 20.06.2022

API Hadoop: Формат вывода для редуктора
Я полностью запутался с API-интерфейсом Hadoop. (угадайте, что он все время меняется) Если я не ошибаюсь, JobConf был deprecated , и вместо этого мы должны были использовать классы Job и Configuration для запуска задания уменьшения карты из...
2988 просмотров
schedule 11.09.2023

Сводная таблица с Apache Pig
Интересно, можно ли повернуть таблицу за один проход в Apache Pig. Вход: Id Column1 Column2 Column3 1 Row11 Row12 Row13 2 Row21 Row22 Row23 Выход: Id Name Value 1 Column1 Row11 1 Column2 Row12 1...
4913 просмотров
schedule 28.04.2022

Разделение данных Hadoop и управление потоком данных
У меня есть 2 вопроса для Hadoop в качестве системы хранения. У меня есть кластер Hadoop из 3 узлов данных, и я хочу направить разбиение огромного файла, скажем, размером 128 МБ (при условии, что размер разделения составляет 64 МБ) на мой выбор...
384 просмотров

Есть ли способ получить информативные ошибки из сценариев Python в потоковой передаче Hadoop?
Я использую Python с потоковой передачей Hadoop. Несмотря на тщательное модульное тестирование, ошибки неизбежно появляются. Когда они случаются, это сообщение об ошибке — это все, что выдает Hadoop: java.lang.RuntimeException:...
1230 просмотров

Редуктор просто не запускается в потоковой передаче Hadoop
Я не уверен, что происходит, но я написал простой скрипт сопоставления и редюсера. И я тестирую его на небольшом наборе данных (например, в несколько строк). По какой-то причине редуктор просто не запускается... а маппер выполняется снова и...
80 просмотров
schedule 14.10.2022

Карта Hadoop UniqValueCount и Aggregate Reducer для большого набора данных (1 миллиард записей)
У меня есть набор данных, содержащий примерно 1 миллиард точек данных. Я хочу извлечь из этого около 46 миллионов уникальных точек данных. Я хочу использовать Hadoop для извлечения уникальных значений, но продолжаю получать ошибки «Недостаточно...
1698 просмотров

Hadoop — уменьшите количество пролитых записей
У меня есть виртуальная машина Ubuntu, работающая в автономном/псевдо-режиме с 4 ГБ оперативной памяти и 4 ядрами. Все установлено по умолчанию, кроме: io.file.buffer.size=65536 io.sort.factor=50 io.sort.mb=500...
6347 просмотров
schedule 06.02.2023

Ошибка конфигурации Hadoop
Я пытаюсь запустить свое приложение hadoop, однако при запуске я вижу это в файлах журнала. Кто-нибудь знает, в чем проблема? Создание файловой системы для hdfs: //10.170.4.141: 9000 java.io.IOException: config () в...
3623 просмотров
schedule 19.05.2022

Распаковать файлы с помощью потоковой передачи Hadoop
У меня есть много файлов в HDFS, все они представляют собой zip-файл с одним файлом CSV внутри него. Я пытаюсь распаковать файлы, чтобы запустить для них потоковую передачу. Я старался: hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar...
9194 просмотров
schedule 24.11.2022

настроить Hadoop для использования другого процесса Reducer для каждого ключа?
В связи с моим вопросом у меня есть процесс потоковой передачи, написанный на Python. Я заметил, что каждый Reducer получает все значения, связанные с несколькими ключами, через sys.stdin . Я бы предпочел, чтобы sys.stdin имел только...
287 просмотров
schedule 30.06.2023

Веб-пользователь Hadoop: нет такого пользователя
При запуске многоузлового кластера Hadoop я получил сообщение об ошибке ниже в своих основных журналах. Может кто-нибудь посоветовать, что делать ..? мне нужно создать нового пользователя или я могу указать свое существующее имя пользователя машины...
5766 просмотров

Запуск эластичной потоковой передачи mapreduce на AMI 3.0.1
Попытка запустить потоковое задание с более новым AMI 3.0.1: я получаю такие ошибки, как: Error: java.lang.RuntimeException: Error in configuring object ... Caused by: java.io.IOException: Cannot run program...
743 просмотров

как использовать STDIN и STDOUT для ввода и вывода в операции matlab потоковой передачи Hadoop
В работе Matlab, как указать путь ввода и вывода для потоковой передачи Hadoop. Я уже знаю, что stdin и stdout — это путь ввода и вывода по умолчанию для потоковой передачи Hadoop. Но я использую код Matlab. Вот как я должен дать?
647 просмотров
schedule 03.11.2022

В python MRJob, как настроить параметр для временного выходного каталога
Я использую MRJob для запуска очень простого подсчета слов в качестве стандартного задания Hadoop: python word_count.py -r hadoop hdfs:///path-to-my-data Эта ошибка печати указывает на то, что он не может создать временный каталог для...
1193 просмотров
schedule 23.03.2023

Как сопоставить/уменьшить с суммой и максимальной датой?
У меня есть файл, мне нужна карта/уменьшенная, где для вывода нужна сумма и максимум даты. У меня работает часть суммы, однако я не уверен, как включить максимальную дату как часть сокращенного вывода. Входные данные выглядят примерно так:...
1562 просмотров

Исключение из запуска контейнера Hadoop
Я запускаю Map-reduce на виртуальной машине Ubuntu и получаю сообщение об ошибке. 15/03/28 23:42:33 INFO mapreduce.Job: Task Id : attempt_1427600395690_0001_m_000001_0, Status : FAILED Exception from container-launch. Container id:...
6334 просмотров
schedule 06.11.2022

Почему hbase даже при наличии hdfs
Почему Hadoop использует hbase, хотя hdfs доступен для хранения? Мы также можем хранить данные таблицы в виде блоков в hdfs. Данные хранятся в hbase? Если да, то роль будет выполнять hdfs?
109 просмотров

Потоковое вещание в Твиттере с несколькими твитами с одинаковым идентификатором
Я собираю твиты с помощью этого пайплайна . Я попытался использовать некоторые собственные скрипты для анализа собранных скриптов. Я обнаружил, что получаю несколько твитов с одинаковым идентификатором. Я посмотрел в hdfs://user/flume/tweets и...
163 просмотров

ФОРМАТ РЯДА
Я использую hadoop 2.0.4 и работаю над анализом настроений в твиттере. Я использовал Flume для приема данных, но теперь данные Twitter должны храниться в таблице кустов. Я создал таблицу, но ROW FORMAT SERDE выдает ошибку «Невозможно...
3450 просмотров
schedule 02.07.2023