Использование Python для извлечения изображений и текста из текстового документа

Я хотел бы запустить сценарий в папке, полной документов Word, который читает документы и извлекает изображения и их подписи (текст прямо под изображениями). Исходя из проведенного мной исследования, я думаю, что pywin32 может быть жизнеспособным решением. Я знаю, как использовать pywin32 для поиска строк и их извлечения, но мне нужна помощь с частью изображений. Как я могу прочитать файл docx и вызвать событие, когда будет найдено изображение? Спасибо за любую помощь! Я использую Python 2.7.


person Preston Donovan    schedule 14.06.2011    source источник


Ответы (4)


Файлы Docx можно разархивировать для извлечения изображений.

person Kevin C.    schedule 03.08.2011

Найдите вдохновение в этом сообщении. Как найти слово в Файл Word 2007 .docx?

person Fredrik Pihl    schedule 14.06.2011

Вы можете использовать модуль python docx2txt для извлечения текста и изображений из файлов docx.

person Ankush Shah    schedule 07.03.2016

document =docx.Document(filepath)
for image in document.inline_shapes:
    print (image.width, image.height)

Попробуйте, это сработает.

person Sathish Kumar MK    schedule 19.03.2018