У меня есть входной файл Excel, предоставленный мне третьей стороной. В этот список входят только имена, номера телефонов и адреса электронной почты. Я пытаюсь преобразовать файл из Excel в формат вики. Мой ход мыслей до сих пор использует «xlhtml», чтобы преобразовать его в текст. Затем я могу использовать pandoc -f html -t mediawiki emp2.txt -o emp3.txt
для преобразования его в вики-разметку. Проблема в том, что pandoc не переводит HTML-таблицы, созданные на первом этапе.
В качестве альтернативы я могу использовать базовые sed, grep, awk и т. д., чтобы удалить html-теги, которые всегда будут одинаковыми, что упрощает мою работу, но тогда у меня возникает проблема с использованием адресов электронной почты [email protected] в виде обычного текста и превращением их в [mailto:[email protected]], что я тоже не знаю, как это сделать. Я не знаю, какой маршрут лучше выбрать. Это не портативное решение, поэтому я могу использовать python, perl, php, bash или любые другие утилиты на основе CLI.
Альтернативный маршрут может состоять в том, чтобы сначала экспортировать документ Excel в csv, а затем манипулировать им.
Примечание: при использовании xlhtml, которое может помочь, адреса электронной почты форматируются как ссылки в Excel, поэтому xlhtml выводит их с использованием ссылок <a href=
, которые я хочу преобразовать в [mailto:[email protected]]