Вопросы по теме 'hadoop-partitioning'
Объяснение командной строки Hadoop
Может кто-нибудь объяснить мне этот синтаксис,
bin/hadoop jar hadoop*examples*.jar wordcount /user/hpuser/testHadoop /user/hpuser/testHadoop-output
Почему мы используем jar сразу после bin/hadoop Что означает hadoop*examples*.jar..? Подсчет...
1023 просмотров
schedule
27.02.2023
Веб-пользователь Hadoop: нет такого пользователя
При запуске многоузлового кластера Hadoop я получил сообщение об ошибке ниже в своих основных журналах. Может кто-нибудь посоветовать, что делать ..? мне нужно создать нового пользователя или я могу указать свое существующее имя пользователя машины...
5766 просмотров
schedule
23.04.2022
Какие два разных ключа идут к одному и тому же редуктору с помощью разделителя хэшей по умолчанию в Hadoop?
Поскольку мы знаем, что Hadoop гарантирует, что одни и те же ключи, полученные от разных mappers , будут отправлены одному и тому же reducer .
Но если два разных ключа имеют одинаковое хэш-значение , они обязательно попадут в один и тот же...
441 просмотров
schedule
03.10.2023
Как добавить жесткий диск в Hadoop
Я установил Hadoop 2.4 на Ubuntu 14.04 и теперь пытаюсь добавить внутренний жесткий диск sata в существующий кластер.
Я смонтировал новый hd в /mnt/hadoop и передал его право собственности пользователю hadoop.
Затем я попытался добавить его в...
5625 просмотров
schedule
27.07.2022
Конфигурация узла данных Hadoop Ядра и оперативная память
Я использую кластер Hadoop с 9 узлами. Я хотел бы знать, какова базовая конфигурация узла данных в кластере Hadoop.
Я использую следующую конфигурацию для Namenode и Datanode.
RAM = 4GB
Cores = 4
Disk = 8 ( Total 16GB storage...
1037 просмотров
schedule
14.10.2022
пользовательский разделитель для отправки одного ключа на несколько редукторов?
Если у меня есть только один ключ. Могу ли я избежать его отправки только одному редюсеру (и распределить его по нескольким редьюсерам)?
Я понимаю, что тогда мне, возможно, придется иметь вторую программу уменьшения карты, чтобы объединить...
381 просмотров
schedule
01.08.2023
isSplitable в CombineFileInputFormat не работает
У меня есть тысячи небольших файлов, и я хочу обработать их с помощью combFileInputFormat.
В combFileInputFormat есть несколько небольших файлов для одного маппера, каждый файл не будет разделен.
фрагмент одного из небольших входных файлов,...
873 просмотров
schedule
05.03.2023
Сокращение карты и разбиение хэша
Изучая MapReduce, я столкнулся с этот вопрос :
В заданной программе Mapreduce этап Map генерирует 100 пар ключ-значение с 10 уникальными ключами.
Сколько задач Reduce может иметь эта программа, если по крайней мере одной задаче Reduce...
953 просмотров
schedule
02.02.2023
Почему hbase даже при наличии hdfs
Почему Hadoop использует hbase, хотя hdfs доступен для хранения?
Мы также можем хранить данные таблицы в виде блоков в hdfs.
Данные хранятся в hbase? Если да, то роль будет выполнять hdfs?
109 просмотров
schedule
20.10.2022
Как сделать UNION в HIVE над двумя ВНЕШНИМИ ТАБЛИЦАМИ, которые указывают на один и тот же файл
Я пытаюсь написать сценарий Hive, который создает две внешние таблицы, обе из которых указывают на одно и то же РАСПОЛОЖЕНИЕ файла с разными регулярными выражениями (фильтрами). Когда я пытаюсь создать СОЮЗ между ними, результаты не такие, как...
462 просмотров
schedule
01.06.2022
Разбиение Spark для записи файлов очень медленное
При записи файла в HDFS с помощью Spark это происходит довольно быстро, если не используется секционирование. Вместо этого, когда я использую разбиение для записи файла, задержка записи увеличивается примерно в 24 раза.
Для того же файла запись...
4894 просмотров
schedule
16.08.2022
Сбой агрегированных запросов в кусте, если каталог раздела не существует
Я использую Hive v1.2.1 с Tez. У меня есть внешняя секционированная таблица. Разделы почасовые и имеют вид p = yyyy_mm_dd_hh. Ситуация такова, что эти каталоги разделов в hdfs, вероятно, когда-нибудь будут удалены. После их удаления улей...
1089 просмотров
schedule
18.10.2022
Распространение выходных файлов Hadoop Streaming на основе ключей
Я написал функцию сопоставления, которая анализирует XML и выводит результат в виде столбцов, разделенных «\ t», как показано ниже.
Name Age
ABC 23
XYZ 24
ERT 25
Используя код потоковой передачи Hadoop, как указано ниже, я пытаюсь...
364 просмотров
schedule
15.04.2022
Как переименовать все столбцы разделов в улье
Когда я пытаюсь переименовать все столбцы разделов в существующей таблице для диапазона дат в один год, которые разделены на разделы, это то, что я получаю.
hive> ALTER TABLE test.usage PARTITION ('date') RENAME TO PARTITION (partition_date);...
2451 просмотров
schedule
10.06.2023
Разделение и группировка в Hive
В моей таблице куста будут данные о записи вызовов. 3 столбца таблицы: field1- CALL_DATE, field2-FROM_PHONE_NUM, field3- TO_PHONE
Я бы запросил что-то вроде 1) я хочу получить все записи вызовов между определенными датами. 2) Я хочу получить все...
127 просмотров
schedule
14.03.2023
Перекос против раздела в улье
Пройдя через Skewed-таблицы в Hive, я запутался в способе хранения данных для Skewed. таблицы и то, как это обрабатывается для секционированных таблиц. Может ли кто-нибудь четко указать различия с отмеченными примерами относительно того, где эти...
1416 просмотров
schedule
12.07.2022
Конфликт имени getPartition типа Partitioner имеет такое же стирание основного класса типа в MapReduce, Hadoop
Я пытался написать код, который я могу настроить. Ввод будет поступать в редуктор в соответствии с длиной символа, используя реализацию в разделе, где по умолчанию Mapper и Reducer, но возникает следующая ошибка. Я буду благодарен тому, кто мне...
90 просмотров
schedule
02.05.2022
Hadoop-Установка-Многоузловой
Привет всем, я пытаюсь установить многоузловую установку Hadoop. Все работает нормально, но мой менеджер узлов для пряжи не работает. Когда я посмотрел файл журнала Yarn nodemanager, я получил следующую информацию:...
117 просмотров
schedule
12.09.2023
Spark sortMergeJoin работает постоянно
Я присоединяюсь к двум кадрам данных, но соединение не завершается и работает много часов. Из-за этого 1 задача выполняется непрерывно, хотя 199 задач выполняются в течение нескольких секунд.
Я пробовал, переделывал и менял правый и левый фреймы...
173 просмотров
schedule
25.02.2023
Как удалить последние созданные файлы в нескольких каталогах HDFS?
Я сделал ошибку и добавил несколько сотен файлов в таблицу, разбитую по дате. Я могу видеть, какие файлы новые (это те, которые я хочу удалить). Большинство случаев, которые я видел здесь, связаны с удалением файлов старше определенной даты, но я...
242 просмотров
schedule
23.03.2023