Python Scrapy: преобразование относительных путей в абсолютные пути

Я изменил код на основе решений, предложенных ниже замечательными людьми здесь; Я получаю сообщение об ошибке, показанное ниже кода здесь.

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.utils.response import get_base_url
from scrapy.utils.url import urljoin_rfc
from dmoz2.items import DmozItem

class DmozSpider(BaseSpider):
   name = "namastecopy2"
   allowed_domains = ["namastefoods.com"]
   start_urls = [
    "http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=1",
    "http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=12",    

]

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    sites = hxs.select('/html/body/div/div[2]/table/tr/td[2]/table/tr')
    items = []
    for site in sites:
        item = DmozItem()
        item['manufacturer'] = 'Namaste Foods'
        item['productname'] = site.select('td/h1/text()').extract()
        item['description'] = site.select('//*[@id="info-col"]/p[7]/strong/text()').extract()
        item['ingredients'] = site.select('td[1]/table/tr/td[2]/text()').extract()
        item['ninfo'] = site.select('td[2]/ul/li[3]/img/@src').extract()
        #insert code that will save the above image path for ninfo as an absolute path
        base_url = get_base_url(response)
        relative_url = site.select('//*[@id="showImage"]/@src').extract()
        item['image_urls'] = urljoin_rfc(base_url, relative_url)
        items.append(item)
    return items

Мой items.py выглядит так:

from scrapy.item import Item, Field

class DmozItem(Item):
    # define the fields for your item here like:
    productid = Field()
    manufacturer = Field()
    productname = Field()
    description = Field()
    ingredients = Field()
    ninfo = Field()
    imagename = Field()
    image_paths = Field()
    relative_images = Field()
    image_urls = Field()
    pass

Мне нужны относительные пути, которые паук получает для элементов ['relative_images'], преобразованные в абсолютные пути и сохраненные в элементах ['image_urls'], чтобы я мог загружать изображения из самого этого паука. Например, относительный путь к изображениям, который извлекает паук, — это «../../files/images/small/8270-BrowniesHiResClip.jpg», его следует преобразовать в «http://namastefoods.com/files/images/small». /8270-BrowniesHiResClip.jpg", и хранится в файле items['image_urls']

Мне также понадобится, чтобы путь items['ninfo'] хранился как абсолютный путь.

Ошибка при запуске приведенного выше кода:

2011-06-28 17:18:11-0400 [scrapy] INFO: Scrapy 0.12.0.2541 started (bot: dmoz2)
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Enabled extensions: TelnetConsole, SpiderContext, WebService, CoreStats, CloseSpider
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Enabled scheduler middlewares: DuplicatesFilterMiddleware
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpCompressionMiddleware, DownloaderStats
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Enabled item pipelines: MyImagesPipeline
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080
2011-06-28 17:18:11-0400 [namastecopy2] INFO: Spider opened
2011-06-28 17:18:12-0400 [namastecopy2] DEBUG: Crawled (200) <GET http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=12> (referer: None)
2011-06-28 17:18:12-0400 [namastecopy2] ERROR: Spider error processing <http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=12> (referer: <None>)
    Traceback (most recent call last):
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/base.py", line 1137, in mainLoop
        self.runUntilCurrent()
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/base.py", line 757, in runUntilCurrent
        call.func(*call.args, **call.kw)
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 243, in callback
        self._startRunCallbacks(result)
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 312, in _startRunCallbacks
        self._runCallbacks()
    --- <exception caught here> ---
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 328, in _runCallbacks
        self.result = callback(self.result, *args, **kw)
      File "/***/***/***/***/***/***/spiders/namaste_copy2.py", line 30, in parse
        item['image_urls'] = urljoin_rfc(base_url, relative_url)
      File "/Library/Python/2.6/site-packages/Scrapy-0.12.0.2541-py2.6.egg/scrapy/utils/url.py", line 37, in urljoin_rfc
        unicode_to_str(ref, encoding))
      File "/Library/Python/2.6/site-packages/Scrapy-0.12.0.2541-py2.6.egg/scrapy/utils/python.py", line 96, in unicode_to_str
        raise TypeError('unicode_to_str must receive a unicode or str object, got %s' % type(text).__name__)
    exceptions.TypeError: unicode_to_str must receive a unicode or str object, got list

2011-06-28 17:18:15-0400 [namastecopy2] DEBUG: Crawled (200) <GET http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=1> (referer: None)
2011-06-28 17:18:15-0400 [namastecopy2] ERROR: Spider error processing <http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=1> (referer: <None>)
    Traceback (most recent call last):
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/base.py", line 1137, in mainLoop
        self.runUntilCurrent()
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/base.py", line 757, in runUntilCurrent
        call.func(*call.args, **call.kw)
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 243, in callback
        self._startRunCallbacks(result)
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 312, in _startRunCallbacks
        self._runCallbacks()
    --- <exception caught here> ---
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 328, in _runCallbacks
        self.result = callback(self.result, *args, **kw)
      File "/***/***/***/***/***/***/spiders/namaste_copy2.py", line 30, in parse
        item['image_urls'] = urljoin_rfc(base_url, relative_url)
      File "/Library/Python/2.6/site-packages/Scrapy-0.12.0.2541-py2.6.egg/scrapy/utils/url.py", line 37, in urljoin_rfc
        unicode_to_str(ref, encoding))
      File "/Library/Python/2.6/site-packages/Scrapy-0.12.0.2541-py2.6.egg/scrapy/utils/python.py", line 96, in unicode_to_str
        raise TypeError('unicode_to_str must receive a unicode or str object, got %s' % type(text).__name__)
    exceptions.TypeError: unicode_to_str must receive a unicode or str object, got list

2    011-06-28 17:18:15-0400 [namastecopy2] INFO: Closing spider (finished)
2011-06-28 17:18:15-0400 [namastecopy2] INFO: Spider closed (finished)

Спасибо.-ТМ


person user818190    schedule 27.06.2011    source источник
comment
не обновляйте свои вопросы без комментариев - в противном случае мы не получаем уведомлений и не знаем, что вам нужна дополнительная информация. также, если найдете какой-либо из ответов полезным - голосуйте.   -  person warvariuc    schedule 29.06.2011
comment
также поместите ваш журнал / трассировку в блок кода   -  person warvariuc    schedule 29.06.2011
comment
не забывайте голосовать за ответы, которые вы считаете полезными   -  person warvariuc    schedule 30.06.2011


Ответы (5)


Из документов Scrapy:

def parse(self, response):
    # ... code ommited
    next_page = response.urljoin(next_page)
    yield scrapy.Request(next_page, self.parse)

то есть у объекта response есть метод, позволяющий сделать именно это.

person NefariousOctopus    schedule 19.11.2016

Что я делаю:

import urlparse
...

def parse(self, response):
    ...
    urlparse.urljoin(response.url, extractedLink.strip())
    ...

Обратите внимание на strip(), потому что я иногда встречаю странные ссылки, например:

<a href="
              /MID_BRAND_NEW!%c2%a0MID_70006_Google_Android_2.2_7%22%c2%a0Tablet_PC_Silver/a904326516.html
            ">MID BRAND NEW!&nbsp;MID 70006 Google Android 2.2 7"&nbsp;Tablet PC Silver</a>
person warvariuc    schedule 28.06.2011
comment
Стоит добавить, что URL-адреса не объединяются с помощью urljoin(), а части URL-адресов, такие как netloc или путь, перезаписываются. Таким образом, urljoin('http://www.myeshop.com/category/subcategory', '/category/subcategory/item001.php') возвращает не http://www.myeshop.com/category/subcategory/category/subcategory/item001.php, а более разумное http://www.myeshop.com/category/subcategory/item001.php. - person sumid; 07.03.2014
comment
ВНИМАНИЕ: для python 3 согласно doc: модуль urlparse переименован в urllib. .parse в Python 3. Инструмент 2to3 автоматически адаптирует импорт при преобразовании ваших исходных кодов в Python 3. - person Rodrigo Laguna; 05.04.2018
comment
В Python 3 это становится: import urllib.parse и использовать его urllib.parse.urljoin(response.url, extractedLink.strip()) - person 8bitme; 12.05.2019

from scrapy.utils.response import get_base_url

base_url           = get_base_url(response)
relative_url       = site.select('//*[@id="showImage"]/@src').extract()
item['image_urls'] = [urljoin_rfc(base_url,ru) for ru in relative_url]

или вы можете извлечь только один элемент

base_url           = get_base_url(response)
relative_url       = site.select('//*[@id="showImage"]/@src').extract()[0]
item['image_urls'] = urljoin_rfc(base_url,relative_url)

Ошибка была в том, что вы передавали список вместо функции str в функцию urljoin.

person user    schedule 28.06.2011
comment
Спасибо @buffer. Я попробовал ваш код выше и получил следующие ошибки: item['image_urls'] = urljoin_rfc(base_url, relative_url) File /Library/Python/2.6/site-packages/Scrapy-0.12.0.2541-py2.6.egg/scrapy /utils/url.py, строка 37, в файле urljoin_rfc unicode_to_str(ref, encoding)) /Library/Python/2.6/site-packages/Scrapy-0.12.0.2541-py2.6.egg/scrapy/utils/python.py , строка 96, в unicode_to_str поднять TypeError('unicode_to_str должен получить объект unicode или str, получил исключения %s' % type(text).__name__). TypeError: unicode_to_str должен получить объект unicode или str, получил список - person user818190; 28.06.2011
comment
Можете ли вы опубликовать фрагмент кода, вызвавший ошибку (обновите свой вопрос с кодом). Вы передаете объект, который не является ни строкой, ни юникодом, поэтому вы получаете эту ошибку. Найдите ошибку здесь dev.scrapy.org/browser/scrapy /utils/python.py?rev=1103 и вы увидите, в чем причина - person user; 28.06.2011
comment
Только что обновил мой вопрос и включил полную ошибку, которую я получаю. Также проверим ссылку, которую вы указали выше. Спасибо. - person user818190; 29.06.2011

Несколько примечаний:

items = []
for site in sites:
    item = DmozItem()
    item['manufacturer'] = 'Namaste Foods'
    ...
    items.append(item)
return items

Я делаю по-другому:

for site in sites:
    item = DmozItem()
    item['manufacturer'] = 'Namaste Foods'
    ...
    yield item

Затем:

relative_url = site.select('//*[@id="showImage"]/@src').extract()
item['image_urls'] = urljoin_rfc(base_url, relative_url)

extract() всегда возвращает список, потому что запрос xpath всегда возвращает список выбранных узлов.

Сделай это:

relative_url = site.select('//*[@id="showImage"]/@src').extract()[0]
item['image_urls'] = urljoin_rfc(base_url, relative_url)
person warvariuc    schedule 29.06.2011
comment
Не забывайте, что с версии 0.14 urljoin_rfc устарел, поскольку Пабло Хоффман (разработчик Scrapy) отметил, что достаточно urljoin из urlparse. - person Sjaak Trekhaak; 15.12.2011

Более общий подход к получению абсолютного URL-адреса:

import urlparse

def abs_url(url, response):
  """Return absolute link"""
  base = response.xpath('//head/base/@href').extract()
  if base:
    base = base[0]
  else:
    base = response.url
  return urlparse.urljoin(base, url)

Это также работает, когда присутствует базовый элемент.

В вашем случае вы бы использовали его так:

def parse(self, response):
  # ...
  for site in sites:
    # ...
    image_urls = site.select('//*[@id="showImage"]/@src').extract()
    if image_urls: item['image_urls'] = abs_url(image_urls[0], response)
person wvengen    schedule 14.02.2015