Читать все типы файлов в Python

Я пытаюсь извлечь информацию из файлов разных типов в python (.pdf .doc .docx) и преобразовать в .txt, но при обработке разных файлов я получаю место и новые строки, когда они не требуются, и многие другие проблемы. Я пробовал PyPDF2 и PDF-менеджер. Пожалуйста, подскажите что-нибудь, с помощью которого я могу извлекать информацию из файлов.

РЕДАКТИРОВАТЬ

В настоящее время ищу что-то, что может помочь мне извлечь точный текст из файлов .pdf. Я пробовал PyPDF, PDFMiner и PDF Manager, и у меня возникают проблемы с некоторыми PDF-файлами во всех из них.

skag 25.05.2017 источник

Ответы (1)

arrow_upward
2
arrow_downward

Лично я считаю pdfminer лучшим модулем Python для извлечения информации из файлов PDF. Получите его здесь

Думаю, вы можете сослаться на эта ссылка для просмотра файлов соответствующих форматов.

gowtham 25.05.2017

comment

Я использовал pdfminer, он не работает для всех PDF-файлов. Более того, можете ли вы предложить что-нибудь для .doc и .docx - skag; 25.05.2017

comment

Думаю, вы можете сослаться на davidmburke.com/2014/02/04/ для соответствующих форматов файлов. Ура! - gowtham; 25.05.2017

comment

получение случайных пробелов с этим - skag; 25.05.2017

comment

PDF-файлы трудно анализировать, поэтому определенно будут некоторые случайные пробелы вместо текста, который не может быть проанализирован. Так что не существует идеального средства извлечения PDF-файлов, вы должны выбрать то, что вам подходит - gowtham; 25.05.2017

Читать все типы файлов в Python

Ответы (1)

Вопросы по теме