Как мы можем прочитать файл .docx с помощью С#?

Я хочу прочитать файл docx в С#. файл docx при преобразовании в .zip генерирует xml нашего файла. Я хочу прочитать этот xml-файл. Мне нужны все данные из документа с названием шрифта (жирный курсив), цветом из файла. Как мы можем это сделать?


person user1006544    schedule 17.12.2011    source источник


Ответы (4)


Формат DOCX хорошо задокументирован. Чтобы прочитать пакеты, вы можете используйте классы из пространства имен System.IO.Packaging.

person Lucero    schedule 17.12.2011
comment
Возможно, лучшая ссылка для документации формата DOCX: msdn.microsoft.com/en-us /библиотека/bb266220.aspx - person Cody Gray; 17.12.2011
comment
Спасибо Коди Грей. Ссылка, которую я разместил, ведет к загрузке ISO/IEC 29500-1 PDF, который, насколько я могу судить, является авторитетным ресурсом. - person Lucero; 17.12.2011

Низкоуровневый ответ: файлы DOCX имеют формат OPC (Open Packaging Conventions) (zip-файлы с манифестом) и могут быть открыты с помощью классов, доступных в System.IO.Packaging.

Ответ высокого уровня: DocX — это платформа с открытым исходным кодом, которая поддерживает управление файлами DOCX с использованием конструкций более высокого уровня.

person Richard Szalay    schedule 17.12.2011

Вы бы использовали библиотеку объектов Microsoft Office 12.0

person Adam    schedule 17.12.2011

Если вы можете прочитать файл как XML, возможно, вы могли бы применить некоторые запросы XPATH, чтобы получить необходимую информацию.

person Raj    schedule 17.12.2011