Я использую Stormcrawler 1.15, ElasticSearch 7.5 и следую этому руководству, чтобы запустить SC: https://www.youtube.com/watch?v=KTerugU12TY
В моем crawler-conf.yaml у меня есть:
# indexer.md.filter: "someKey=aValue"
indexer.url.fieldname: "url"
indexer.text.fieldname: "content"
indexer.canonical.name: "canonical"
indexer.md.mapping:
- parse.title=title
- parse.keywords=keywords
- parse.description=description
- domain=domain
Это говорит о том, что у меня уже есть описание и ключевые слова, но на данный момент я получаю в документах индекса «контент» поля: url, content, domain, title. Например:
{
"_index": "content",
"_type": "_doc",
"_id": "c31104689b7ab4e8152f70b755049e7060da3457f06d64993667df28f7be6811",
"_score": 1,
"_source": {
"content": "Startseite Gesetze / Verordnungen Aktualitätendienst [...]",
"url": "http://www.gesetze-im-internet.de/markeng_8bek_00-03-27/index.html",
"domain": "gesetze-im-internet.de",
"title": "MarkenG§8Bek 00-03-27 - nichtamtliches Inhaltsverzeichnis"
}
}
Но я бы хотел получить больше, например, ключевые слова, описание, дату создания, дату сканирования. Может быть, даже резюме.
Как я могу их получить?
Какие еще значения / поля я могу получить с помощью этого поискового робота?
Как их получить в ES?
Я слышал, что есть способ заставить SC работать с tika для лучшего анализа html и pdf, и таким образом, возможно, я смогу получить больше данных и метаданных с моих просканированных страниц. Но я до сих пор не знаю, как это сделать. Руководство / руководство для этого было бы неплохо.