Правильно идентифицируйте docx pptx xlsx и другие файлы msoffice, а не applicator/zip


person sebastian nielsen    schedule 10.11.2011    source источник
comment
file/libmagic может отличить файлы OASIS OpenDocument/Libre Office от обычных файлов Zip, так что можно. Кому-то просто нужно отправить соответствующие подписи для файлов Microsoft OOXML в список рассылки.   -  person daxim    schedule 10.11.2011


Ответы (1)


Невозможно отличить файл .zip от файла Office Open XML (например, .docx, xslx, .pptx и т. д.), не заглянув внутрь zip.

Все различные открытые форматы XML используют сжатие .ZIP. Следовательно, они являются zip-файлами.

Если zip-файл соответствует Соглашению об открытой упаковке, он также может быть в формате Open XML (Office). документ.

Хорошая эвристика состоит в том, что если zip-файл содержит файл с именем /[Content_Types].xml, то это файл OPC. Чтобы определить, содержит ли zip-файл файл с таким именем, вы должны прочитать каталог zipfile. Для этого используйте zip-библиотеку.

person Cheeso    schedule 10.11.2011