Публикации по теме hadoop-streaming

Вопросы по теме 'hadoop-streaming'

hadoop-streaming: как уменьшить размер ввода, вычисляя задачу? и как это исправить?

Я вижу следующее в журнале jobtracker: 011-11-02 10:04:09,595 WARN org.apache.hadoop.mapred.JobInProgress: No room for reduce task. Node tracker_worker1:localhost/127.0.0.1:52295 has 62087933952 bytes free; but we expect reduce input to take...

255 просмотров

20.06.2022

API Hadoop: Формат вывода для редуктора

Я полностью запутался с API-интерфейсом Hadoop. (угадайте, что он все время меняется) Если я не ошибаюсь, JobConf был deprecated , и вместо этого мы должны были использовать классы Job и Configuration для запуска задания уменьшения карты из...

2988 просмотров

hadoop mapreduce hadoop-streaming

11.09.2023

Сводная таблица с Apache Pig

Интересно, можно ли повернуть таблицу за один проход в Apache Pig. Вход: Id Column1 Column2 Column3 1 Row11 Row12 Row13 2 Row21 Row22 Row23 Выход: Id Name Value 1 Column1 Row11 1 Column2 Row12 1...

4913 просмотров

hadoop-streaming apache-pig

28.04.2022

Разделение данных Hadoop и управление потоком данных

У меня есть 2 вопроса для Hadoop в качестве системы хранения. У меня есть кластер Hadoop из 3 узлов данных, и я хочу направить разбиение огромного файла, скажем, размером 128 МБ (при условии, что размер разделения составляет 64 МБ) на мой выбор...

384 просмотров

hadoop hdfs mapreduce hadoop-plugins hadoop-streaming

18.06.2022

Есть ли способ получить информативные ошибки из сценариев Python в потоковой передаче Hadoop?

Я использую Python с потоковой передачей Hadoop. Несмотря на тщательное модульное тестирование, ошибки неизбежно появляются. Когда они случаются, это сообщение об ошибке — это все, что выдает Hadoop: java.lang.RuntimeException:...

1230 просмотров

python debugging error-handling hadoop hadoop-streaming

30.05.2022

Редуктор просто не запускается в потоковой передаче Hadoop

Я не уверен, что происходит, но я написал простой скрипт сопоставления и редюсера. И я тестирую его на небольшом наборе данных (например, в несколько строк). По какой-то причине редуктор просто не запускается... а маппер выполняется снова и...

80 просмотров

hadoop hadoop-streaming

14.10.2022

Карта Hadoop UniqValueCount и Aggregate Reducer для большого набора данных (1 миллиард записей)

У меня есть набор данных, содержащий примерно 1 миллиард точек данных. Я хочу извлечь из этого около 46 миллионов уникальных точек данных. Я хочу использовать Hadoop для извлечения уникальных значений, но продолжаю получать ошибки «Недостаточно...

1698 просмотров

hadoop mapreduce hadoop-streaming elastic-map-reduce

12.06.2023

Hadoop — уменьшите количество пролитых записей

У меня есть виртуальная машина Ubuntu, работающая в автономном/псевдо-режиме с 4 ГБ оперативной памяти и 4 ядрами. Все установлено по умолчанию, кроме: io.file.buffer.size=65536 io.sort.factor=50 io.sort.mb=500...

6347 просмотров

hadoop hadoop-streaming

06.02.2023

Ошибка конфигурации Hadoop

Я пытаюсь запустить свое приложение hadoop, однако при запуске я вижу это в файлах журнала. Кто-нибудь знает, в чем проблема? Создание файловой системы для hdfs: //10.170.4.141: 9000 java.io.IOException: config () в...

3623 просмотров

java hadoop hadoop-streaming

19.05.2022

Распаковать файлы с помощью потоковой передачи Hadoop

У меня есть много файлов в HDFS, все они представляют собой zip-файл с одним файлом CSV внутри него. Я пытаюсь распаковать файлы, чтобы запустить для них потоковую передачу. Я старался: hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar...

9194 просмотров

hadoop zip hadoop-streaming

24.11.2022

настроить Hadoop для использования другого процесса Reducer для каждого ключа?

В связи с моим вопросом у меня есть процесс потоковой передачи, написанный на Python. Я заметил, что каждый Reducer получает все значения, связанные с несколькими ключами, через sys.stdin . Я бы предпочел, чтобы sys.stdin имел только...

287 просмотров

hadoop hadoop-streaming

30.06.2023

Веб-пользователь Hadoop: нет такого пользователя

При запуске многоузлового кластера Hadoop я получил сообщение об ошибке ниже в своих основных журналах. Может кто-нибудь посоветовать, что делать ..? мне нужно создать нового пользователя или я могу указать свое существующее имя пользователя машины...

5766 просмотров

hadoop mapreduce hadoop-partitioning hadoop-plugins hadoop-streaming

23.04.2022

Запуск эластичной потоковой передачи mapreduce на AMI 3.0.1

Попытка запустить потоковое задание с более новым AMI 3.0.1: я получаю такие ошибки, как: Error: java.lang.RuntimeException: Error in configuring object ... Caused by: java.io.IOException: Cannot run program...

743 просмотров

amazon-web-services amazon-emr hadoop hadoop-streaming

03.01.2023

как использовать STDIN и STDOUT для ввода и вывода в операции matlab потоковой передачи Hadoop

В работе Matlab, как указать путь ввода и вывода для потоковой передачи Hadoop. Я уже знаю, что stdin и stdout — это путь ввода и вывода по умолчанию для потоковой передачи Hadoop. Но я использую код Matlab. Вот как я должен дать?

647 просмотров

matlab hadoop stdout stdin hadoop-streaming

03.11.2022

В python MRJob, как настроить параметр для временного выходного каталога

Я использую MRJob для запуска очень простого подсчета слов в качестве стандартного задания Hadoop: python word_count.py -r hadoop hdfs:///path-to-my-data Эта ошибка печати указывает на то, что он не может создать временный каталог для...

1193 просмотров

hadoop hadoop-streaming mrjob

23.03.2023

Как сопоставить/уменьшить с суммой и максимальной датой?

У меня есть файл, мне нужна карта/уменьшенная, где для вывода нужна сумма и максимум даты. У меня работает часть суммы, однако я не уверен, как включить максимальную дату как часть сокращенного вывода. Входные данные выглядят примерно так:...

1562 просмотров

python ruby hadoop mapreduce hadoop-streaming

02.04.2023

Исключение из запуска контейнера Hadoop

Я запускаю Map-reduce на виртуальной машине Ubuntu и получаю сообщение об ошибке. 15/03/28 23:42:33 INFO mapreduce.Job: Task Id : attempt_1427600395690_0001_m_000001_0, Status : FAILED Exception from container-launch. Container id:...

6334 просмотров

hadoop-streaming

06.11.2022

Почему hbase даже при наличии hdfs

Почему Hadoop использует hbase, хотя hdfs доступен для хранения? Мы также можем хранить данные таблицы в виде блоков в hdfs. Данные хранятся в hbase? Если да, то роль будет выполнять hdfs?

109 просмотров

hadoop hadoop-partitioning hadoop2 hadoop-streaming

20.10.2022

Потоковое вещание в Твиттере с несколькими твитами с одинаковым идентификатором

Я собираю твиты с помощью этого пайплайна . Я попытался использовать некоторые собственные скрипты для анализа собранных скриптов. Я обнаружил, что получаю несколько твитов с одинаковым идентификатором. Я посмотрел в hdfs://user/flume/tweets и...

163 просмотров

twitter hadoop hadoop-streaming twitter-streaming-api

04.12.2022

ФОРМАТ РЯДА

Я использую hadoop 2.0.4 и работаю над анализом настроений в твиттере. Я использовал Flume для приема данных, но теперь данные Twitter должны храниться в таблице кустов. Я создал таблицу, но ROW FORMAT SERDE выдает ошибку «Невозможно...

3450 просмотров

hive hadoop-streaming

02.07.2023