Публикации по теме 'hive'
Оптимизация запросов Hive с помощью Tez Query Engine
Настройка параметров конфигурации для повышения производительности Hive
Hive предоставляет нам возможность выполнять SQL-запросы с помощью нескольких различных механизмов запросов. Он поставляется с родным движком MapReduce. Но мы можем переключиться на Tez, который приобрел популярность с момента его запуска, или мы также можем использовать Apache Spark. В большинстве производственных развертываний Hive сегодня используется механизм запросов Tez.
В этом посте мы рассмотрим..
Оптимизация перекоса соединения в Hive
Перекошенные данные
Данные могут быть «искажены», что означает наличие длинного хвоста с одной или другой стороны. Пример длинного хвоста в положительную сторону:
Пример
Предположим, у нас в системе есть следующие таблицы:
ТАБЛИЦА 1. Факты
Содержит 100M записей. Имеет поле CODE_ID как 1 поля. Тип данных - INTEGER и имеет значения в диапазоне 1–10K. 99M записей имеют значение 250 для поля CODE_ID. 1 млн записей имеют остальные значения с равной вероятностью.
ТАБЛИЦА..
PayPal представляет Dione, библиотеку индексирования Spark с открытым исходным кодом
Обеспечьте более быстрое взаимодействие с данными Hadoop
Авторы Охад Равив и Шай Эльбаз
Продукты PayPal, как общедоступные, так и внутренние, в значительной степени зависят от обработки данных с использованием самых разных методов и технологий. Мы, команда инженеров в глобальной группе науки о данных PayPal, несем ответственность за предоставление базовых решений для этих продуктов данных. Мы хотели бы поделиться интересным вариантом использования, с которым мы столкнулись, и..
Вопросы по теме 'hive'
Spring-Batch для массовой ночной/ежечасной обработки данных Hive/MySQL
Я пытаюсь заменить кучу скриптов Python ETL, которые выполняют еженощную/ежечасную сводку данных и сбор статистики по огромному количеству данных.
Чего я хотел бы добиться, так это
Надежность — сбойное задание/шаг должен быть автоматически...
5542 просмотров
schedule
26.11.2023
самый длинный совпадающий префикс
В MySQL, чтобы сопоставить «12684041234» с самым длинным префиксом, который вы бы сделали
SELECT num_prefix
FROM nums
WHERE '12684041234' LIKE CONCAT(num_prefix, '%')
AND LENGTH(num_prefix) = (
SELECT MAX(LENGTH(num_prefix))
FROM nums...
4321 просмотров
schedule
18.12.2022
Как перенести таблицу mysql в куст?
У меня есть большая таблица mysql, которую я хотел бы перенести в таблицу Hadoop/Hive. Существуют ли стандартные команды или методы для переноса простой (но большой) таблицы из Mysql в Hive? В таблице хранятся в основном аналитические данные.
8024 просмотров
schedule
05.05.2022
Выполнение аналитических запросов к большим динамическим наборам данных
У меня есть требование, когда у меня есть большие наборы входящих данных в систему, которой я владею.
Единица данных в этом наборе имеет набор неизменяемых атрибутов + присоединенное к ней состояние. Состояние динамическое и может измениться в...
410 просмотров
schedule
06.08.2023
Hive/Hadoop/Flatfile: как эффективно объединить и объединить строки
id col1 col2 ... coln
---------------------
foo barA barB ...
foo barD barX
boo barA barC
foo barC barC
Я хотел бы объединить это в «свернутые» строки, которые выглядят так:
foo barA;barD;barC barB;barX;barC
boo barD barC
На данный...
932 просмотров
schedule
13.07.2023
Проблемы с установкой R Hive и устранение неисправностей
Я пытаюсь использовать R для распределенного интеллектуального анализа текста. Первый шаг - заставить Hive работать с R на локальном компьютере.
Итак, я выполнил следующие шаги:
Установлен Hadoop на локальном компьютере
Запустил R на...
434 просмотров
schedule
16.02.2023
Парсинг и загрузка в Hive/Hadoop
Я новичок в структуре сокращения карт Hadoop, и я думаю об использовании сокращения карт Hadoop для анализа моих данных. У меня есть тысячи больших файлов с разделителями, для которых я думаю написать задание по уменьшению карты, чтобы...
7108 просмотров
schedule
02.01.2023
Как эффективно сортировать (упорядочивать) большие данные с помощью Hive?
Я хочу эффективно отсортировать большой набор данных (т.е. с помощью специального разделителя, как описано здесь: Как работает алгоритм сортировки MapReduce? ), но я хочу сделать это с помощью hive.
Однако в руководстве по Hive указано, что «заказ...
4860 просмотров
schedule
20.10.2022
куст regexp_extract
Я использую regexp_extract() для извлечения подстроки из строки.
Один тип подстроки выглядит так: Abc-Def-ghi Я использую regexp_extract(s, '^[a-zA-Z0-9]{1,}\-[a-zA-Z0-9]{1,}\-[a-zA-Z0-9]{1,}') ) для ее получения.
Другой тип подстроки...
8904 просмотров
schedule
10.01.2023
Сводная таблица в Hive
Я новичок в хаупе и улье. если кто-то работал с концепцией основного улья , поделитесь, пожалуйста, со мной.
Например: данные из терадаты или оракула не сведены, эти данные должны быть сведены в куст. Итак, как применить концепцию поворота в...
2730 просмотров
schedule
04.12.2022
Использование классов Java map/reduce в запросах улья
Я читал, что в запросах улья мы можем использовать скрипты map/reduce.
Можем ли мы использовать классы java map/reduce в запросах Hive. Если да, то не могли бы вы предоставить мне образец.
Спасибо МРК
2876 просмотров
schedule
13.05.2023
Насколько Hbase/Hive близка к основной СУБД?
Я ищу в Hbase хранилище действий пользователя без схемы («пользователь x просмотрел y», «пользователь x просмотрел y со страницы z»).
HBase кажется отличным выбором, поскольку
хранит данные в формате без схемы, а также,
может поддерживать...
401 просмотров
schedule
09.09.2022
Интеграция Hive/HBase — сеанс Zookeeper немедленно закрывается
У нас есть кластер из 8 узлов, использующий CDH3u2, настроенный с помощью Cloudera Manager. У нас есть выделенный главный узел, на котором работает наш единственный экземпляр zookeeper. Когда я настраиваю hive для запуска локального Hadoop,...
6181 просмотров
schedule
05.05.2022
Отображение неправильного количества после импорта таблицы в Hive
Я импортировал около 10 таблиц в Hive из MS SQL Server. Но когда я пытаюсь перекрестно проверить записи в Hive в одной из таблиц, я обнаружил больше записей при запуске запроса (выберите count (*) из tblName;).
Затем я отбросил эту таблицу и снова...
5096 просмотров
schedule
21.12.2023
Подключение микростратегии к Hive
У меня проблемы с подключением микростратегии к улью. Я выполнил все инструкции здесь
Я также читал технические заметки от микростратегии. Я могу успешно подключиться к порту 8020, но когда я запускаю запрос, я получаю ошибку SQLget. Я не могу...
1761 просмотров
schedule
22.09.2022
Экспорт таблицы Hive в корзину S3
Я создал таблицу Hive с помощью интерактивного сеанса Elastic MapReduce и заполнил ее из файла CSV следующим образом:
CREATE TABLE csvimport(id BIGINT, time STRING, log STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';
LOAD DATA LOCAL...
29943 просмотров
schedule
03.04.2023
XML Serde для Hadoop/Hive
Я использовал JSONSerde для обработки огромных объемов данных JSON, хранящихся на S3, с помощью Amazon EMR. У одного из моих клиентов есть потребность в обработке больших данных XML, но я не смог найти XML Serde для использования с HIVE.
Вы,...
2546 просмотров
schedule
08.10.2022
Передать параметры в скрипт куста с помощью aws php sdk
Я пытаюсь запустить скрипт куста на AWS EMR, используя php sdk. Как я могу передать параметры скрипта (например, ввод, вывод и даты для работы)?
Спасибо
2183 просмотров
schedule
04.07.2022
Hive против производительности SQL Server
1) Я начал использовать улей последние 2 месяца. У меня та же задача, что и в SQL. Я обнаружил, что Hive работает медленно и требует больше времени для выполнения запросов, в то время как SQL выполняет его всего за несколько минут / секунд.
После...
8426 просмотров
schedule
11.03.2023
Подключите версию R для Windows к Hadoop
Я пытаюсь подключить R к кластеру Hadoop с помощью R. На кластере установлены HDFS, Map Reduce, Hive, Pig и Sqoop.
R будет работать в среде Windows. Я знаю, что rhdfs, rhadoop и rmr существуют для Linux, но я ничего не могу найти для Windows....
1665 просмотров
schedule
03.01.2023