Какие значения / поля я могу получить от Stormcrawler?

Я использую Stormcrawler 1.15, ElasticSearch 7.5 и следую этому руководству, чтобы запустить SC: https://www.youtube.com/watch?v=KTerugU12TY

В моем crawler-conf.yaml у меня есть:

  # indexer.md.filter: "someKey=aValue"
  indexer.url.fieldname: "url"
  indexer.text.fieldname: "content"
  indexer.canonical.name: "canonical"
  indexer.md.mapping:
  - parse.title=title
  - parse.keywords=keywords
  - parse.description=description
  - domain=domain

Это говорит о том, что у меня уже есть описание и ключевые слова, но на данный момент я получаю в документах индекса «контент» поля: url, content, domain, title. Например:

{
  "_index": "content",
  "_type": "_doc",
  "_id": "c31104689b7ab4e8152f70b755049e7060da3457f06d64993667df28f7be6811",
  "_score": 1,
  "_source": {
    "content": "Startseite Gesetze / Verordnungen Aktualitätendienst [...]",
    "url": "http://www.gesetze-im-internet.de/markeng_8bek_00-03-27/index.html",
    "domain": "gesetze-im-internet.de",
    "title": "MarkenG§8Bek 00-03-27 - nichtamtliches Inhaltsverzeichnis"
  }
}

Но я бы хотел получить больше, например, ключевые слова, описание, дату создания, дату сканирования. Может быть, даже резюме.

Как я могу их получить?

Какие еще значения / поля я могу получить с помощью этого поискового робота?

Как их получить в ES?

Я слышал, что есть способ заставить SC работать с tika для лучшего анализа html и pdf, и таким образом, возможно, я смогу получить больше данных и метаданных с моих просканированных страниц. Но я до сих пор не знаю, как это сделать. Руководство / руководство для этого было бы неплохо.


person Daniel Agudelo Cruz    schedule 22.12.2019    source источник


Ответы (1)


Убедитесь, что фильтры синтаксического анализа настроены правильно как здесь. Сканер можно настроить или расширить для извлечения практически всего, см. WIKI для список существующих фильтров синтаксического анализа.

Модуль Tika не будет лучше справляться с документами HTML по сравнению с модулем JSOUP, но будет обрабатывать другие типы mime. См. README этого модуля, чтобы узнать, как его использовать.

person Julien Nioche    schedule 24.12.2019