Сбор данных с веб-сайта, занимающего первое место в результатах поиска Google EAN/UPC.

Мне любопытно, возможна ли следующая автоматизация:

  1. найдите в Google номер кода UCP/EAN (например, 8710103703631)
  2. scrape and parse data (depending on what is available) from the first ranked page concerning Product:
    • Name
    • Бренд
    • Модель
    • Изображение
    • Описание

Просто пытаюсь понять, насколько это может быть сложно.

Спасибо!


person JohnnyCool    schedule 27.02.2019    source источник
comment
Это должно быть выполнимо, но я бы не советовал очищать осыпи. Вы можете проверить пакет python scrapy, он может вам помочь scrapy.org   -  person pythonic833    schedule 27.02.2019


Ответы (1)


Поиск кодов EAN/UPC через API

Существует несколько бесплатных веб-API, которые (обратно) ищут штрих-коды (EAN/UPC) или предоставить дополнительную информацию.

Например, ean-search.org – это REST API, запрашиваемый EAN. и предоставляет XML (например, предоставляет ссылку на Amazon для вашего примера «Philips Sonicare»).

Преимущество использования API: готовые к использованию данные, не требуется парсинг.

Веб-скрейпинг для результатов поиска

Наверняка вы можете использовать поисковые системы (например, google, duckduckgo и т. д.) и искать штрих-код, используя любимый библиотека веб-скрейпинга на желаемом языке программирования:

person hc_dev    schedule 27.02.2019