TFX Example_Gen Производит RuntimeError

Я получаю следующую ошибку при запуске context.run(example_gen) , и мне хотелось бы понять, что это значит и как я могу избежать этой ошибки. Прошу совета и заранее спасибо!

Ошибка: RuntimeError: Files in same split /home/jupyter/.../data/* have different header.

Данные представляют собой CSV с заголовками A, B, C, D.

from  tfx.proto import example_gen_pb2

base_dir = '/home/jupyter/.../data/'
#Input has a single split 'input_dir/*
#Output 2 splits: train:eval=3:1.'
output = example_gen_pb2.Output(
            split_config=example_gen_pb2.SplitConfig(splits=[
                example_gen_pb2.SplitConfig.Split(name='train', hash_buckets=3),
                example_gen_pb2.SplitConfig.Split(name='eval', hash_buckets=1)
            ]))

examples = csv_input(os.path.join(base_dir))
example_gen = CsvExampleGen(input=examples, output_config=output)

person LLTeng    schedule 22.07.2020    source источник


Ответы (1)


У нас была такая же ошибка. В нашем случае каталог также содержал скрытые файлы. Точнее, каталог контрольных точек ноутбука Jupyter.

Чтобы решить эту проблему: убедитесь, что каталог содержит только файлы .csv. Никаких других (скрытых) файлов.

Авторы этот комментарий на github.

person Pieter    schedule 20.10.2020