Я хотел бы запустить сценарий в папке, полной документов Word, который читает документы и извлекает изображения и их подписи (текст прямо под изображениями). Исходя из проведенного мной исследования, я думаю, что pywin32 может быть жизнеспособным решением. Я знаю, как использовать pywin32 для поиска строк и их извлечения, но мне нужна помощь с частью изображений. Как я могу прочитать файл docx и вызвать событие, когда будет найдено изображение? Спасибо за любую помощь! Я использую Python 2.7.
Использование Python для извлечения изображений и текста из текстового документа
Ответы (4)
Файлы Docx можно разархивировать для извлечения изображений.
person
Kevin C.
schedule
03.08.2011
Найдите вдохновение в этом сообщении. Как найти слово в Файл Word 2007 .docx?
person
Fredrik Pihl
schedule
14.06.2011
Вы можете использовать модуль python docx2txt для извлечения текста и изображений из файлов docx.
person
Ankush Shah
schedule
07.03.2016
document =docx.Document(filepath)
for image in document.inline_shapes:
print (image.width, image.height)
Попробуйте, это сработает.
person
Sathish Kumar MK
schedule
19.03.2018