Читать все типы файлов в Python

Я пытаюсь извлечь информацию из файлов разных типов в python (.pdf .doc .docx) и преобразовать в .txt, но при обработке разных файлов я получаю место и новые строки, когда они не требуются, и многие другие проблемы. Я пробовал PyPDF2 и PDF-менеджер. Пожалуйста, подскажите что-нибудь, с помощью которого я могу извлекать информацию из файлов.

РЕДАКТИРОВАТЬ

В настоящее время ищу что-то, что может помочь мне извлечь точный текст из файлов .pdf. Я пробовал PyPDF, PDFMiner и PDF Manager, и у меня возникают проблемы с некоторыми PDF-файлами во всех из них.


person skag    schedule 25.05.2017    source источник


Ответы (1)


Лично я считаю pdfminer лучшим модулем Python для извлечения информации из файлов PDF. Получите его здесь

Думаю, вы можете сослаться на эта ссылка для просмотра файлов соответствующих форматов.

person gowtham    schedule 25.05.2017
comment
Я использовал pdfminer, он не работает для всех PDF-файлов. Более того, можете ли вы предложить что-нибудь для .doc и .docx - person skag; 25.05.2017
comment
Думаю, вы можете сослаться на davidmburke.com/2014/02/04/ для соответствующих форматов файлов. Ура! - person gowtham; 25.05.2017
comment
получение случайных пробелов с этим - person skag; 25.05.2017
comment
PDF-файлы трудно анализировать, поэтому определенно будут некоторые случайные пробелы вместо текста, который не может быть проанализирован. Так что не существует идеального средства извлечения PDF-файлов, вы должны выбрать то, что вам подходит - person gowtham; 25.05.2017