У меня есть куча столбцов, например, мои данные отображаются, как показано ниже. Мне нужно проверить столбцы на наличие ошибок и сгенерировать два выходных файла. Я использую Apache Spark 2.0 и хочу сделать это эффективно.
Schema Details
---------------
EMPID - (NUMBER)
ENAME - (STRING,SIZE(50))
GENDER - (STRING,SIZE(1))
Data
----
EMPID,ENAME,GENDER
1001,RIO,M
1010,RICK,MM
1015,123MYA,F
Мои ожидаемые выходные файлы должны быть такими, как показано ниже:
1.
EMPID,ENAME,GENDER
1001,RIO,M
1010,RICK,NULL
1015,NULL,F
2.
EMPID,ERROR_COLUMN,ERROR_VALUE,ERROR_DESCRIPTION
1010,GENDER,"MM","OVERSIZED"
1010,GENDER,"MM","VALUE INVALID FOR GENDER"
1015,ENAME,"123MYA","NAME SHOULD BE A STRING"
Спасибо