Я прошу о помощи, потому что я действительно потратил часы (более 5) на поиск ответа в Интернете и не могу найти правильного решения.
Мой проект требует, чтобы я отбрасывал заголовки внешних веб-страниц, но иногда эти страницы имеют код iso-8859-1.
Поскольку отмененные заголовки отображаются в коде моей страницы в utf-8, я получаю � вместо таких символов, как é, à, ê, ô ...
Поэтому я должен найти способ иногда преобразовывать заголовки из iso-8859-1 в utf-8. Можешь мне помочь?
Я пишу скрипты с помощью скриптов Google, например Я пишу код на JavaScript для улучшения электронной таблицы Google с помощью предоставленного API.
Чтобы удалить внешние веб-страницы, я использую этот код:
var result = UrlFetchApp.fetch( url );
var wholePage = result.getContentText();
var scrap = wholePage.match( /<title>(.*?)<\/title>/ );
var title = scrap[1];
Он отлично работает, если уничтоженная страница закодирована в utf-8, но не для этого URL-адреса (в качестве примера): http://www.lexpress.fr/actualite/medias/cannes-pierre-lescure-et-jerome-clement-pressentis-pour-successder-a-gilles-jacob_1254608.html
Вот результат, который я получил на этом примере:
Канны: Pierre Lescure et J�r�me Clément Pressentis pour succéder � Gilles Jacob - L'EXPRESS
(да, я француз).
Может ли кто-нибудь помочь мне в этом? Буду очень признателен. Я попытался предоставить как можно больше информации, поскольку многие другие вопросы, связанные с проблемами кодирования в StackOverflow, не имеют реального контекста. Скажите, если вам нужно больше, я отвечу быстро.