Имена столбцов при экспорте файлов ORC с hive server 2 с помощью beeline

Я столкнулся с проблемой, когда при экспорте результатов с сервера куста 2 в файлы ORC отображаются некоторые имена столбцов по умолчанию (например, _col0, _col1, _col2) вместо исходных, созданных в кусте. Мы используем компоненты по умолчанию из HDP-2.6.3.0.

Мне также интересно, связана ли следующая проблема:

https://issues.apache.org/jira/browse/HIVE-4243

Ниже приведены шаги, которые мы предпринимаем:

Подключение:

export SPARK_HOME=/usr/hdp/current/spark2-client
beeline
!connect jdbc:hive2://HOST1:2181,HOST2:2181,HOST2:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2

Создание тестовой таблицы и вставка образцов значений:

create table test(str string);
insert into test values ('1');
insert into test values ('2');
insert into test values ('3');

Выполнение тестового запроса:

select * from test;
+-----------+--+
| test.str  |
+-----------+--+
| 1         |
| 2         |
| 3         |
+-----------+--+

Экспорт в формате ORC:

insert overwrite directory 'hdfs://HOST1:8020/tmp/test' stored as orc select * from test;

Получение результатов:

hdfs dfs -get /tmp/test/000000_0 test.orc

Проверка результатов:

java -jar orc-tools-1.4.1-uber.jar data test.orc
Processing data file test.orc [length: 228]
{"_col0":"1"}
{"_col0":"2"}
{"_col0":"3"}

java -jar orc-tools-1.4.1-uber.jar meta test.orc
Processing data file test.orc [length: 228]
Structure for test.orc
File Version: 0.12 with HIVE_13083
Rows: 2
Compression: SNAPPY
Compression size: 262144
Type: struct<_col0:string>

Stripe Statistics:
  Stripe 1:
    Column 0: count: 2 hasNull: false
    Column 1: count: 2 hasNull: false min: 1 max: 3 sum: 2

File Statistics:
  Column 0: count: 2 hasNull: false
  Column 1: count: 2 hasNull: false min: 1 max: 3 sum: 2

Stripes:
  Stripe: offset: 3 data: 11 rows: 2 tail: 60 index: 39
    Stream: column 0 section ROW_INDEX start: 3 length 11
    Stream: column 1 section ROW_INDEX start: 14 length 28
    Stream: column 1 section DATA start: 42 length 5
    Stream: column 1 section LENGTH start: 47 length 6
    Encoding column 0: DIRECT
    Encoding column 1: DIRECT_V2

File length: 228 bytes
Padding length: 0 bytes
Padding ratio: 0%

Глядя на результаты, я вижу _col0 в качестве имени столбца, ожидая оригинального str.

Любые идеи о том, что мне не хватает?

Обновить

Заметил, что подключение от билайна идет на улей 1.x, а не 2.x как хотелось. Я изменил соединение с URL-адресом Hive Server 2 Interactive:

Connected to: Apache Hive (version 2.1.0.2.6.3.0-235)
Driver: Hive JDBC (version 1.21.2.2.6.3.0-235)
Transaction isolation: TRANSACTION_REPEATABLE_READ

И попробовал еще раз с тем же образцом. Он даже распечатывает схему правильно:

INFO  : Returning Hive schema: Schema(fieldSchemas:[FieldSchema(name:test.str, type:string, comment:null)], properties:null)

Но до сих пор не повезло получить его в файле ORC.


person Tuomas Tikka    schedule 08.02.2018    source источник


Ответы (2)


Решение

Вам нужно включить Hive LLAP (интерактивный SQL) в Ambari, а затем изменить используемую строку подключения. Например, мое соединение стало jdbc:hive2://.../;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2-hive2

Обратите внимание на дополнительный «-hive2» в конце URL-адреса. Вот обучающее видео от hortonworks.

"Доказательство"

После подключения к обновленной конечной точке Hive я запустил

create table t_orc(customer string, age int) stored as orc;
insert into t_orc values('bob', 12),('kate', 15);

затем

~$ hdfs dfs -copyToLocal /apps/hive/warehouse/t_orc/000000_0 ~/tmp/orc/hive2.orc 
~$ orc-metadata tmp/orc/hive2.orc 
{ "name": "tmp/orc/hive2.orc",
  "type": "struct<customer:string,age:int>",
  "rows": 2,
  "stripe count": 1,
  "format": "0.12", "writer version": "HIVE-13083",
  "compression": "zlib", "compression block": 262144,
  "file length": 305,
  "content": 139, "stripe stats": 46, "footer": 96, "postscript": 23,
  "row index stride": 10000,
  "user metadata": {
  },
  "stripes": [
    { "stripe": 0, "rows": 2,
      "offset": 3, "length": 136,
      "index": 67, "data": 23, "footer": 46
    }
  ]
}

Где orc-metadata — это инструмент, распространяемый репозиторием ORC на github.

person Mitchell Tracy    schedule 08.06.2018

Вы должны установить это в hive script или hive-shell, в противном случае поместите его в файл .hiverc в вашем основном каталоге или в любой другой файл свойств пользователя куста.

set hive.cli.print.header=true;
person Sahil Desai    schedule 08.02.2018
comment
Я использую оболочку beeline для подключения к серверу hive 2. Я считаю, что та же идея в beeline заключается в использовании !set showheader true, который работает с запросами в интерактивной консоли, но, похоже, не применяется к экспорту ORC. Кроме того, та же проблема существует при использовании старой оболочки улья, независимо от этой переменной. - person Tuomas Tikka; 08.02.2018