Публикации по теме hive

Публикации по теме 'hive'

Оптимизация запросов Hive с помощью Tez Query Engine

Настройка параметров конфигурации для повышения производительности Hive Hive предоставляет нам возможность выполнять SQL-запросы с помощью нескольких различных механизмов запросов. Он поставляется с родным движком MapReduce. Но мы можем переключиться на Tez, который приобрел популярность с момента его запуска, или мы также можем использовать Apache Spark. В большинстве производственных развертываний Hive сегодня используется механизм запросов Tez. В этом посте мы рассмотрим..

Оптимизация перекоса соединения в Hive

Перекошенные данные Данные могут быть «искажены», что означает наличие длинного хвоста с одной или другой стороны. Пример длинного хвоста в положительную сторону: Пример Предположим, у нас в системе есть следующие таблицы: ТАБЛИЦА 1. Факты Содержит 100M записей. Имеет поле CODE_ID как 1 поля. Тип данных - INTEGER и имеет значения в диапазоне 1–10K. 99M записей имеют значение 250 для поля CODE_ID. 1 млн записей имеют остальные значения с равной вероятностью. ТАБЛИЦА..

PayPal представляет Dione, библиотеку индексирования Spark с открытым исходным кодом

Обеспечьте более быстрое взаимодействие с данными Hadoop Авторы Охад Равив и Шай Эльбаз Продукты PayPal, как общедоступные, так и внутренние, в значительной степени зависят от обработки данных с использованием самых разных методов и технологий. Мы, команда инженеров в глобальной группе науки о данных PayPal, несем ответственность за предоставление базовых решений для этих продуктов данных. Мы хотели бы поделиться интересным вариантом использования, с которым мы столкнулись, и..

Вопросы по теме 'hive'

Spring-Batch для массовой ночной/ежечасной обработки данных Hive/MySQL

Я пытаюсь заменить кучу скриптов Python ETL, которые выполняют еженощную/ежечасную сводку данных и сбор статистики по огромному количеству данных. Чего я хотел бы добиться, так это Надежность — сбойное задание/шаг должен быть автоматически...

5542 просмотров

26.11.2023

самый длинный совпадающий префикс

В MySQL, чтобы сопоставить «12684041234» с самым длинным префиксом, который вы бы сделали SELECT num_prefix FROM nums WHERE '12684041234' LIKE CONCAT(num_prefix, '%') AND LENGTH(num_prefix) = ( SELECT MAX(LENGTH(num_prefix)) FROM nums...

4321 просмотров

mysql hadoop hive

18.12.2022

Как перенести таблицу mysql в куст?

У меня есть большая таблица mysql, которую я хотел бы перенести в таблицу Hadoop/Hive. Существуют ли стандартные команды или методы для переноса простой (но большой) таблицы из Mysql в Hive? В таблице хранятся в основном аналитические данные.

8024 просмотров

mysql hadoop hive

05.05.2022

Выполнение аналитических запросов к большим динамическим наборам данных

У меня есть требование, когда у меня есть большие наборы входящих данных в систему, которой я владею. Единица данных в этом наборе имеет набор неизменяемых атрибутов + присоединенное к ней состояние. Состояние динамическое и может измениться в...

410 просмотров

hadoop hive apache-pig

06.08.2023

Hive/Hadoop/Flatfile: как эффективно объединить и объединить строки

id col1 col2 ... coln --------------------- foo barA barB ... foo barD barX boo barA barC foo barC barC Я хотел бы объединить это в «свернутые» строки, которые выглядят так: foo barA;barD;barC barB;barX;barC boo barD barC На данный...

932 просмотров

java hadoop hive

13.07.2023

Проблемы с установкой R Hive и устранение неисправностей

Я пытаюсь использовать R для распределенного интеллектуального анализа текста. Первый шаг - заставить Hive работать с R на локальном компьютере. Итак, я выполнил следующие шаги: Установлен Hadoop на локальном компьютере Запустил R на...

434 просмотров

r java hadoop hive

16.02.2023

Парсинг и загрузка в Hive/Hadoop

Я новичок в структуре сокращения карт Hadoop, и я думаю об использовании сокращения карт Hadoop для анализа моих данных. У меня есть тысячи больших файлов с разделителями, для которых я думаю написать задание по уменьшению карты, чтобы...

7108 просмотров

hadoop hive mapreduce

02.01.2023

Как эффективно сортировать (упорядочивать) большие данные с помощью Hive?

Я хочу эффективно отсортировать большой набор данных (т.е. с помощью специального разделителя, как описано здесь: Как работает алгоритм сортировки MapReduce? ), но я хочу сделать это с помощью hive. Однако в руководстве по Hive указано, что «заказ...

4860 просмотров

hadoop hive mapreduce apache-pig

20.10.2022

куст regexp_extract

Я использую regexp_extract() для извлечения подстроки из строки. Один тип подстроки выглядит так: Abc-Def-ghi Я использую regexp_extract(s, '^[a-zA-Z0-9]{1,}\-[a-zA-Z0-9]{1,}\-[a-zA-Z0-9]{1,}') ) для ее получения. Другой тип подстроки...

8904 просмотров

regex hive

10.01.2023

Сводная таблица в Hive

Я новичок в хаупе и улье. если кто-то работал с концепцией основного улья , поделитесь, пожалуйста, со мной. Например: данные из терадаты или оракула не сведены, эти данные должны быть сведены в куст. Итак, как применить концепцию поворота в...

2730 просмотров

hive

04.12.2022

Использование классов Java map/reduce в запросах улья

Я читал, что в запросах улья мы можем использовать скрипты map/reduce. Можем ли мы использовать классы java map/reduce в запросах Hive. Если да, то не могли бы вы предоставить мне образец. Спасибо МРК

2876 просмотров

hive

13.05.2023

Насколько Hbase/Hive близка к основной СУБД?

Я ищу в Hbase хранилище действий пользователя без схемы («пользователь x просмотрел y», «пользователь x просмотрел y со страницы z»). HBase кажется отличным выбором, поскольку хранит данные в формате без схемы, а также, может поддерживать...

401 просмотров

hive hbase

09.09.2022

Интеграция Hive/HBase — сеанс Zookeeper немедленно закрывается

У нас есть кластер из 8 узлов, использующий CDH3u2, настроенный с помощью Cloudera Manager. У нас есть выделенный главный узел, на котором работает наш единственный экземпляр zookeeper. Когда я настраиваю hive для запуска локального Hadoop,...

6181 просмотров

hadoop hive apache-zookeeper hbase

05.05.2022

Отображение неправильного количества после импорта таблицы в Hive

Я импортировал около 10 таблиц в Hive из MS SQL Server. Но когда я пытаюсь перекрестно проверить записи в Hive в одной из таблиц, я обнаружил больше записей при запуске запроса (выберите count (*) из tblName;). Затем я отбросил эту таблицу и снова...

5096 просмотров

hive sqoop

21.12.2023

Подключение микростратегии к Hive

У меня проблемы с подключением микростратегии к улью. Я выполнил все инструкции здесь Я также читал технические заметки от микростратегии. Я могу успешно подключиться к порту 8020, но когда я запускаю запрос, я получаю ошибку SQLget. Я не могу...

1761 просмотров

hadoop hive microstrategy

22.09.2022

Экспорт таблицы Hive в корзину S3

Я создал таблицу Hive с помощью интерактивного сеанса Elastic MapReduce и заполнил ее из файла CSV следующим образом: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA LOCAL...

29943 просмотров

amazon-s3 hive elastic-map-reduce emr

03.04.2023

XML Serde для Hadoop/Hive

Я использовал JSONSerde для обработки огромных объемов данных JSON, хранящихся на S3, с помощью Amazon EMR. У одного из моих клиентов есть потребность в обработке больших данных XML, но я не смог найти XML Serde для использования с HIVE. Вы,...

2546 просмотров

hadoop hive

08.10.2022

Передать параметры в скрипт куста с помощью aws php sdk

Я пытаюсь запустить скрипт куста на AWS EMR, используя php sdk. Как я могу передать параметры скрипта (например, ввод, вывод и даты для работы)? Спасибо

2183 просмотров

amazon-web-services php amazon-emr hive

04.07.2022

Hive против производительности SQL Server

1) Я начал использовать улей последние 2 месяца. У меня та же задача, что и в SQL. Я обнаружил, что Hive работает медленно и требует больше времени для выполнения запросов, в то время как SQL выполняет его всего за несколько минут / секунд. После...

8426 просмотров

sql-server hive

11.03.2023

Подключите версию R для Windows к Hadoop

Я пытаюсь подключить R к кластеру Hadoop с помощью R. На кластере установлены HDFS, Map Reduce, Hive, Pig и Sqoop. R будет работать в среде Windows. Я знаю, что rhdfs, rhadoop и rmr существуют для Linux, но я ничего не могу найти для Windows....

1665 просмотров

r hadoop hdfs hive mapreduce

03.01.2023