Существуют ли библиотеки с открытым исходным кодом, поддерживающие идентификацию и извлечение таблиц?
Под этим я подразумеваю:
- Определить, что структура таблицы существует
- Классифицировать таблицу по ее содержимому
- Извлеките данные из таблицы в удобном формате вывода, например. JSON/CSV и т. д.
Я просмотрел похожие вопросы по этой теме и нашел следующее:
- PDFMiner, который решает проблему 3, но кажется, что пользователь должен указать PDFMiner, где существует структура таблицы для каждой таблицы. (поправьте меня если я ошибаюсь)
- pdf-table-extract, который пытается решить проблему 1, но в соответствии с To-Do список, в настоящее время не может идентифицировать таблицы, разделенные пробелами. Это проблема, так как все таблицы в моих PDF-файлах разделены пробелами!
В настоящее время я думаю, что мне придется потратить много времени на разработку решения для машинного обучения для определения структур таблиц из PDF-файлов. Поэтому любые альтернативные подходы будут более чем приветствоваться!