Я пытаюсь вытащить из нее страницу для разбора информации с помощью cfhttp. Заголовки страниц, которые я вызываю:
Кодировка содержимого: gzip
Соединение: Keep-Alive
Длина контента: 19066
Сервер: IBM_HTTP_Server
Варьировать: Accept-Encoding, User-Agent
Язык содержания: en-US
Управление кешем: no-cache="set-cookie,
set-cookie2"
Тип содержимого:
текст/html; набор символов = ISO-8859-1
Я установил кодировку в ISO-8859-1, однако я получаю следующее в FileContent (ниже показан только небольшой образец, но я думаю, что он указывает на).
Ðññ · oã · \ \ zól¯þ'vú55ðbä £ ÿÿ¾_heòññðão £ ÿÿ¾_héòññão \ þöÿë85áü a ± ° ùö} mbq¥ÝÃ8M
Я пробовал другие наборы символов и считал, что кодировка gzip вызывает проблему, но я не уверен, как проверить, если это проблема. Любые предложения или помощь будут очень оценены.
Ниже мой код
<cfhttp
METHOD="get"
throwonerror="yes"
CHARSET="ISO-8859-1"
URL="http://www.cars.com/for-sale/searchresults.action?sf1Dir=DESC&prMn=1&crSrtFlds=stkTypId-feedSegId-pseudoPrice&rd=100000&zc=44203&PMmt=0-0-0&stkTypId=28881&sf2Dir=ASC&sf1Nm=price&sf2Nm=miles&feedSegId=28705&searchSource=UTILITY&pgId=2102&rpp=10">
<cfhttpparam type="Header" name="Accept-Encoding" value="deflate;q=0">
<cfhttpparam type= "Header" name= "TE" value= "deflate;q=0" >
</cfhttp>
<cfset listings = #cfhttp.FileContent#>
<cfoutput>
#listings#
</cfoutput>
Я также пробовал заголовки:
<cfhttpparam type="Header" name="Accept-Encoding" value="*">
<cfhttpparam type= "Header" name= "TE" value= "deflate;q=0" >
И попытался удалить заголовок «Accept-Encoding» и просто оставить TE.
ОБНОВЛЕНИЕ: я до сих пор не разобрался, но нашел кое-что, что может помочь кому-то помочь мне. Когда я использовал свой тестовый php-сервер для запуска file_get_contents на той же странице, и он работал нормально, то, если я запускал тот же код cfhttp для вызова php-страницы, которая вызывала нужную мне страницу, все работало нормально. Спасибо за предложения.