Публикации по теме 'hive'


Оптимизация запросов Hive с помощью Tez Query Engine
Настройка параметров конфигурации для повышения производительности Hive Hive предоставляет нам возможность выполнять SQL-запросы с помощью нескольких различных механизмов запросов. Он поставляется с родным движком MapReduce. Но мы можем переключиться на Tez, который приобрел популярность с момента его запуска, или мы также можем использовать Apache Spark. В большинстве производственных развертываний Hive сегодня используется механизм запросов Tez. В этом посте мы рассмотрим..

Оптимизация перекоса соединения в Hive
Перекошенные данные Данные могут быть «искажены», что означает наличие длинного хвоста с одной или другой стороны. Пример длинного хвоста в положительную сторону: Пример Предположим, у нас в системе есть следующие таблицы: ТАБЛИЦА 1. Факты Содержит 100M записей. Имеет поле CODE_ID как 1 поля. Тип данных - INTEGER и имеет значения в диапазоне 1–10K. 99M записей имеют значение 250 для поля CODE_ID. 1 млн записей имеют остальные значения с равной вероятностью. ТАБЛИЦА..

PayPal представляет Dione, библиотеку индексирования Spark с открытым исходным кодом
Обеспечьте более быстрое взаимодействие с данными Hadoop Авторы Охад Равив и Шай Эльбаз Продукты PayPal, как общедоступные, так и внутренние, в значительной степени зависят от обработки данных с использованием самых разных методов и технологий. Мы, команда инженеров в глобальной группе науки о данных PayPal, несем ответственность за предоставление базовых решений для этих продуктов данных. Мы хотели бы поделиться интересным вариантом использования, с которым мы столкнулись, и..

Вопросы по теме 'hive'

Spring-Batch для массовой ночной/ежечасной обработки данных Hive/MySQL
Я пытаюсь заменить кучу скриптов Python ETL, которые выполняют еженощную/ежечасную сводку данных и сбор статистики по огромному количеству данных. Чего я хотел бы добиться, так это Надежность — сбойное задание/шаг должен быть автоматически...
5542 просмотров
schedule 26.11.2023

самый длинный совпадающий префикс
В MySQL, чтобы сопоставить «12684041234» с самым длинным префиксом, который вы бы сделали SELECT num_prefix FROM nums WHERE '12684041234' LIKE CONCAT(num_prefix, '%') AND LENGTH(num_prefix) = ( SELECT MAX(LENGTH(num_prefix)) FROM nums...
4321 просмотров
schedule 18.12.2022

Как перенести таблицу mysql в куст?
У меня есть большая таблица mysql, которую я хотел бы перенести в таблицу Hadoop/Hive. Существуют ли стандартные команды или методы для переноса простой (но большой) таблицы из Mysql в Hive? В таблице хранятся в основном аналитические данные.
8024 просмотров
schedule 05.05.2022

Выполнение аналитических запросов к большим динамическим наборам данных
У меня есть требование, когда у меня есть большие наборы входящих данных в систему, которой я владею. Единица данных в этом наборе имеет набор неизменяемых атрибутов + присоединенное к ней состояние. Состояние динамическое и может измениться в...
410 просмотров
schedule 06.08.2023

Hive/Hadoop/Flatfile: как эффективно объединить и объединить строки
id col1 col2 ... coln --------------------- foo barA barB ... foo barD barX boo barA barC foo barC barC Я хотел бы объединить это в «свернутые» строки, которые выглядят так: foo barA;barD;barC barB;barX;barC boo barD barC На данный...
932 просмотров
schedule 13.07.2023

Проблемы с установкой R Hive и устранение неисправностей
Я пытаюсь использовать R для распределенного интеллектуального анализа текста. Первый шаг - заставить Hive работать с R на локальном компьютере. Итак, я выполнил следующие шаги: Установлен Hadoop на локальном компьютере Запустил R на...
434 просмотров
schedule 16.02.2023

Парсинг и загрузка в Hive/Hadoop
Я новичок в структуре сокращения карт Hadoop, и я думаю об использовании сокращения карт Hadoop для анализа моих данных. У меня есть тысячи больших файлов с разделителями, для которых я думаю написать задание по уменьшению карты, чтобы...
7108 просмотров
schedule 02.01.2023

Как эффективно сортировать (упорядочивать) большие данные с помощью Hive?
Я хочу эффективно отсортировать большой набор данных (т.е. с помощью специального разделителя, как описано здесь: Как работает алгоритм сортировки MapReduce? ), но я хочу сделать это с помощью hive. Однако в руководстве по Hive указано, что «заказ...
4860 просмотров
schedule 20.10.2022

куст regexp_extract
Я использую regexp_extract() для извлечения подстроки из строки. Один тип подстроки выглядит так: Abc-Def-ghi Я использую regexp_extract(s, '^[a-zA-Z0-9]{1,}\-[a-zA-Z0-9]{1,}\-[a-zA-Z0-9]{1,}') ) для ее получения. Другой тип подстроки...
8904 просмотров
schedule 10.01.2023

Сводная таблица в Hive
Я новичок в хаупе и улье. если кто-то работал с концепцией основного улья , поделитесь, пожалуйста, со мной. Например: данные из терадаты или оракула не сведены, эти данные должны быть сведены в куст. Итак, как применить концепцию поворота в...
2730 просмотров
schedule 04.12.2022

Использование классов Java map/reduce в запросах улья
Я читал, что в запросах улья мы можем использовать скрипты map/reduce. Можем ли мы использовать классы java map/reduce в запросах Hive. Если да, то не могли бы вы предоставить мне образец. Спасибо МРК
2876 просмотров
schedule 13.05.2023

Насколько Hbase/Hive близка к основной СУБД?
Я ищу в Hbase хранилище действий пользователя без схемы («пользователь x просмотрел y», «пользователь x просмотрел y со страницы z»). HBase кажется отличным выбором, поскольку хранит данные в формате без схемы, а также, может поддерживать...
401 просмотров
schedule 09.09.2022

Интеграция Hive/HBase — сеанс Zookeeper немедленно закрывается
У нас есть кластер из 8 узлов, использующий CDH3u2, настроенный с помощью Cloudera Manager. У нас есть выделенный главный узел, на котором работает наш единственный экземпляр zookeeper. Когда я настраиваю hive для запуска локального Hadoop,...
6181 просмотров
schedule 05.05.2022

Отображение неправильного количества после импорта таблицы в Hive
Я импортировал около 10 таблиц в Hive из MS SQL Server. Но когда я пытаюсь перекрестно проверить записи в Hive в одной из таблиц, я обнаружил больше записей при запуске запроса (выберите count (*) из tblName;). Затем я отбросил эту таблицу и снова...
5096 просмотров
schedule 21.12.2023

Подключение микростратегии к Hive
У меня проблемы с подключением микростратегии к улью. Я выполнил все инструкции здесь Я также читал технические заметки от микростратегии. Я могу успешно подключиться к порту 8020, но когда я запускаю запрос, я получаю ошибку SQLget. Я не могу...
1761 просмотров
schedule 22.09.2022

Экспорт таблицы Hive в корзину S3
Я создал таблицу Hive с помощью интерактивного сеанса Elastic MapReduce и заполнил ее из файла CSV следующим образом: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA LOCAL...
29943 просмотров
schedule 03.04.2023

XML Serde для Hadoop/Hive
Я использовал JSONSerde для обработки огромных объемов данных JSON, хранящихся на S3, с помощью Amazon EMR. У одного из моих клиентов есть потребность в обработке больших данных XML, но я не смог найти XML Serde для использования с HIVE. Вы,...
2546 просмотров
schedule 08.10.2022

Передать параметры в скрипт куста с помощью aws php sdk
Я пытаюсь запустить скрипт куста на AWS EMR, используя php sdk. Как я могу передать параметры скрипта (например, ввод, вывод и даты для работы)? Спасибо
2183 просмотров
schedule 04.07.2022

Hive против производительности SQL Server
1) Я начал использовать улей последние 2 месяца. У меня та же задача, что и в SQL. Я обнаружил, что Hive работает медленно и требует больше времени для выполнения запросов, в то время как SQL выполняет его всего за несколько минут / секунд. После...
8426 просмотров
schedule 11.03.2023

Подключите версию R для Windows к Hadoop
Я пытаюсь подключить R к кластеру Hadoop с помощью R. На кластере установлены HDFS, Map Reduce, Hive, Pig и Sqoop. R будет работать в среде Windows. Я знаю, что rhdfs, rhadoop и rmr существуют для Linux, но я ничего не могу найти для Windows....
1665 просмотров
schedule 03.01.2023