Билайн не загружает файл CSV

Итак, я пытаюсь загрузить CSV-файл в Beeline для простого анализа и начать работу с пакетом Hadoop. Я использую следующие команды CREATE EXTERNAL TABLE IF NOT EXISTS babies( PseudoID_voorkeur INT, OpnameID INT, Specialisme VARCHAR(32), Opnamecategorie VARCHAR(32), OpnamecategorieOmschrijving VARCHAR(32), OpnametypeID VARCHAR(32), OpnametypeOmschrijving VARCHAR(32), OpnamesubtypeID VARCHAR(32), BehandelcategorieID_OPN VARCHAR(32), BehandelcategorieOmschr_OPN VARCHAR(32), BehandelcodeID VARCHAR(32), BehandelcodeOmschrijving VARCHAR(32), OpnamelocatieID VARCHAR(32), OpnamelocatieOmschrijving VARCHAR(32), AfdelingID_OPN VARCHAR(32), AfdelingOmschrijving_OPN VARCHAR(32), Behandelaar VARCHAR(32), Aanmelder VARCHAR(32), HerkomstID VARCHAR(32), HerkomstOmschrijving VARCHAR(32), Spoed_OPN INT, ScreeningstatusID_OPN VARCHAR(32), ScreeningstatusOmschrijving_OPN VARCHAR(32), OpnamestatusID_OPN INT, OpnamestatusOmschrijving_OPN VARCHAR(32), EersteOpname_OPN INT, GebruikOK_OPN INT, GewensteTermijn_OPN VARCHAR(32), Inschrijfdatum_OPN STRING, Wachtlijstdatum_OPN STRING, UitersteDatum_OPN STRING, GeplandeOpnamedatum_OPN STRING, GeplandeOpnametijd_OPN VARCHAR(32), GeplandeOntslagdatum_OPN STRING, GeplandeOntslagtijd_OPN VARCHAR(32), Oproepdatum_OPN STRING, Opnamedatum_OPN STRING, Opnametijd_OPN VARCHAR(32), Ontslagdatum_OPN STRING, Ontslagtijd_OPN VARCHAR(32), Annuleringsdatum_OPN STRING, Factureringsdatum_OPN STRING, Mutatiedatum_OPN STRING, Mutatietijd_OPN VARCHAR(32), VerwachteOpnameduur_OPN VARCHAR(32), BestemmingID VARCHAR(32), BestemmingOmschrijving VARCHAR(32), PseudoID_voorkeur1 INT, Aanvraagnummer INT, Broncode VARCHAR(32), Labgroep_naam VARCHAR(32), Labgroep_code INT, Afnamedatum STRING, Afnametijd VARCHAR(32), Afdeling VARCHAR(32), Aanvrager VARCHAR(32), Bepaling VARCHAR(32), Bepaling_omschrijving VARCHAR(32), Bepaling_materiaal VARCHAR(32), Uitslag_waarde VARCHAR(32), Uitslag_eenheid VARCHAR(32), Uitslag_grenswaarde_onder DOUBLE, Uitslag_grenswaarde_boven DOUBLE, Uitslag_grenswaarde_vlag VARCHAR(32), Uitslag_status VARCHAR(32), Zenddatum STRING, Zendtijd VARCHAR(32) )ROW FORMAT DELIMITED FIELDS TERMINATED BY "/073" LINES TERMINATED BY '\n' STORED AS TEXTFILE;

load data inpath '/user/cloudera/output/clean/neo.csv' overwrite into table babies;

Когда я пытаюсь это сделать, я получаю 0 обработанных строк, см. код, обрезанный как вывод: Loading data to table default.babies Table default.babies stats: [numFiles=1, numRows=0, totalSize=738077097, rawDataSize=0] OK No rows affected (2.564 seconds)

Кто-нибудь знает, как это исправить? Файл CSV разделен ; (что означает /073, а строки заканчиваются разрывом строки


person Richard    schedule 10.10.2017    source источник
comment
Вы можете поместить csv на hdfs, а затем создать поверх него внешнюю таблицу, используя опцию LOCATION   -  person OneCricketeer    schedule 10.10.2017


Ответы (1)


Поскольку я вижу, что файл уже присутствует в HDFS, добавьте следующее при создании ВНЕШНЕЙ ТАБЛИЦЫ

РАСПОЛОЖЕНИЕ '/user/cloudera/output/clean/'

В этом случае нет необходимости в «LOAD DATA INPATH», вы можете напрямую запросить таблицу.

person sai harsha vardhan    schedule 03.03.2018