Какие значения / поля я могу получить от Stormcrawler?

Я использую Stormcrawler 1.15, ElasticSearch 7.5 и следую этому руководству, чтобы запустить SC: https://www.youtube.com/watch?v=KTerugU12TY

В моем crawler-conf.yaml у меня есть:

  # indexer.md.filter: "someKey=aValue"
  indexer.url.fieldname: "url"
  indexer.text.fieldname: "content"
  indexer.canonical.name: "canonical"
  indexer.md.mapping:
  - parse.title=title
  - parse.keywords=keywords
  - parse.description=description
  - domain=domain

Это говорит о том, что у меня уже есть описание и ключевые слова, но на данный момент я получаю в документах индекса «контент» поля: url, content, domain, title. Например:

{
  "_index": "content",
  "_type": "_doc",
  "_id": "c31104689b7ab4e8152f70b755049e7060da3457f06d64993667df28f7be6811",
  "_score": 1,
  "_source": {
    "content": "Startseite Gesetze / Verordnungen Aktualitätendienst [...]",
    "url": "http://www.gesetze-im-internet.de/markeng_8bek_00-03-27/index.html",
    "domain": "gesetze-im-internet.de",
    "title": "MarkenG§8Bek 00-03-27 - nichtamtliches Inhaltsverzeichnis"
  }
}

Но я бы хотел получить больше, например, ключевые слова, описание, дату создания, дату сканирования. Может быть, даже резюме.

Как я могу их получить?

Какие еще значения / поля я могу получить с помощью этого поискового робота?

Как их получить в ES?

Я слышал, что есть способ заставить SC работать с tika для лучшего анализа html и pdf, и таким образом, возможно, я смогу получить больше данных и метаданных с моих просканированных страниц. Но я до сих пор не знаю, как это сделать. Руководство / руководство для этого было бы неплохо.

elasticsearch-7 apache-tika stormcrawler

Daniel Agudelo Cruz 22.12.2019 источник

Ответы (1)

arrow_upward
1
arrow_downward

Убедитесь, что фильтры синтаксического анализа настроены правильно как здесь. Сканер можно настроить или расширить для извлечения практически всего, см. WIKI для список существующих фильтров синтаксического анализа.

Модуль Tika не будет лучше справляться с документами HTML по сравнению с модулем JSOUP, но будет обрабатывать другие типы mime. См. README этого модуля, чтобы узнать, как его использовать.

Julien Nioche 24.12.2019

Какие значения / поля я могу получить от Stormcrawler?

Ответы (1)

Вопросы по теме