Вопросы по теме 'hadoop-partitioning'

Объяснение командной строки Hadoop
Может кто-нибудь объяснить мне этот синтаксис, bin/hadoop jar hadoop*examples*.jar wordcount /user/hpuser/testHadoop /user/hpuser/testHadoop-output Почему мы используем jar сразу после bin/hadoop Что означает hadoop*examples*.jar..? Подсчет...
1023 просмотров
schedule 27.02.2023

Веб-пользователь Hadoop: нет такого пользователя
При запуске многоузлового кластера Hadoop я получил сообщение об ошибке ниже в своих основных журналах. Может кто-нибудь посоветовать, что делать ..? мне нужно создать нового пользователя или я могу указать свое существующее имя пользователя машины...
5766 просмотров

Какие два разных ключа идут к одному и тому же редуктору с помощью разделителя хэшей по умолчанию в Hadoop?
Поскольку мы знаем, что Hadoop гарантирует, что одни и те же ключи, полученные от разных mappers , будут отправлены одному и тому же reducer . Но если два разных ключа имеют одинаковое хэш-значение , они обязательно попадут в один и тот же...
441 просмотров
schedule 03.10.2023

Как добавить жесткий диск в Hadoop
Я установил Hadoop 2.4 на Ubuntu 14.04 и теперь пытаюсь добавить внутренний жесткий диск sata в существующий кластер. Я смонтировал новый hd в /mnt/hadoop и передал его право собственности пользователю hadoop. Затем я попытался добавить его в...
5625 просмотров
schedule 27.07.2022

Конфигурация узла данных Hadoop Ядра и оперативная память
Я использую кластер Hadoop с 9 узлами. Я хотел бы знать, какова базовая конфигурация узла данных в кластере Hadoop. Я использую следующую конфигурацию для Namenode и Datanode. RAM = 4GB Cores = 4 Disk = 8 ( Total 16GB storage...
1037 просмотров

пользовательский разделитель для отправки одного ключа на несколько редукторов?
Если у меня есть только один ключ. Могу ли я избежать его отправки только одному редюсеру (и распределить его по нескольким редьюсерам)? Я понимаю, что тогда мне, возможно, придется иметь вторую программу уменьшения карты, чтобы объединить...
381 просмотров

isSplitable в CombineFileInputFormat не работает
У меня есть тысячи небольших файлов, и я хочу обработать их с помощью combFileInputFormat. В combFileInputFormat есть несколько небольших файлов для одного маппера, каждый файл не будет разделен. фрагмент одного из небольших входных файлов,...
873 просмотров

Сокращение карты и разбиение хэша
Изучая MapReduce, я столкнулся с этот вопрос : В заданной программе Mapreduce этап Map генерирует 100 пар ключ-значение с 10 уникальными ключами. Сколько задач Reduce может иметь эта программа, если по крайней мере одной задаче Reduce...
953 просмотров
schedule 02.02.2023

Почему hbase даже при наличии hdfs
Почему Hadoop использует hbase, хотя hdfs доступен для хранения? Мы также можем хранить данные таблицы в виде блоков в hdfs. Данные хранятся в hbase? Если да, то роль будет выполнять hdfs?
109 просмотров

Как сделать UNION в HIVE над двумя ВНЕШНИМИ ТАБЛИЦАМИ, которые указывают на один и тот же файл
Я пытаюсь написать сценарий Hive, который создает две внешние таблицы, обе из которых указывают на одно и то же РАСПОЛОЖЕНИЕ файла с разными регулярными выражениями (фильтрами). Когда я пытаюсь создать СОЮЗ между ними, результаты не такие, как...
462 просмотров
schedule 01.06.2022

Разбиение Spark для записи файлов очень медленное
При записи файла в HDFS с помощью Spark это происходит довольно быстро, если не используется секционирование. Вместо этого, когда я использую разбиение для записи файла, задержка записи увеличивается примерно в 24 раза. Для того же файла запись...
4894 просмотров

Сбой агрегированных запросов в кусте, если каталог раздела не существует
Я использую Hive v1.2.1 с Tez. У меня есть внешняя секционированная таблица. Разделы почасовые и имеют вид p = yyyy_mm_dd_hh. Ситуация такова, что эти каталоги разделов в hdfs, вероятно, когда-нибудь будут удалены. После их удаления улей...
1089 просмотров
schedule 18.10.2022

Распространение выходных файлов Hadoop Streaming на основе ключей
Я написал функцию сопоставления, которая анализирует XML и выводит результат в виде столбцов, разделенных «\ t», как показано ниже. Name Age ABC 23 XYZ 24 ERT 25 Используя код потоковой передачи Hadoop, как указано ниже, я пытаюсь...
364 просмотров

Как переименовать все столбцы разделов в улье
Когда я пытаюсь переименовать все столбцы разделов в существующей таблице для диапазона дат в один год, которые разделены на разделы, это то, что я получаю. hive> ALTER TABLE test.usage PARTITION ('date') RENAME TO PARTITION (partition_date);...
2451 просмотров

Разделение и группировка в Hive
В моей таблице куста будут данные о записи вызовов. 3 столбца таблицы: field1- CALL_DATE, field2-FROM_PHONE_NUM, field3- TO_PHONE Я бы запросил что-то вроде 1) я хочу получить все записи вызовов между определенными датами. 2) Я хочу получить все...
127 просмотров
schedule 14.03.2023

Перекос против раздела в улье
Пройдя через Skewed-таблицы в Hive, я запутался в способе хранения данных для Skewed. таблицы и то, как это обрабатывается для секционированных таблиц. Может ли кто-нибудь четко указать различия с отмеченными примерами относительно того, где эти...
1416 просмотров

Конфликт имени getPartition типа Partitioner имеет такое же стирание основного класса типа в MapReduce, Hadoop
Я пытался написать код, который я могу настроить. Ввод будет поступать в редуктор в соответствии с длиной символа, используя реализацию в разделе, где по умолчанию Mapper и Reducer, но возникает следующая ошибка. Я буду благодарен тому, кто мне...
90 просмотров

Hadoop-Установка-Многоузловой
Привет всем, я пытаюсь установить многоузловую установку Hadoop. Все работает нормально, но мой менеджер узлов для пряжи не работает. Когда я посмотрел файл журнала Yarn nodemanager, я получил следующую информацию:...
117 просмотров

Spark sortMergeJoin работает постоянно
Я присоединяюсь к двум кадрам данных, но соединение не завершается и работает много часов. Из-за этого 1 задача выполняется непрерывно, хотя 199 задач выполняются в течение нескольких секунд. Я пробовал, переделывал и менял правый и левый фреймы...
173 просмотров

Как удалить последние созданные файлы в нескольких каталогах HDFS?
Я сделал ошибку и добавил несколько сотен файлов в таблицу, разбитую по дате. Я могу видеть, какие файлы новые (это те, которые я хочу удалить). Большинство случаев, которые я видел здесь, связаны с удалением файлов старше определенной даты, но я...
242 просмотров
schedule 23.03.2023