Повторно использовать встроенные языковые фильтры?

Я видел вопрос здесь, который показывает, как можно создать собственный анализатор, чтобы иметь как поддержку синонимов, так и поддержку языков.

Тем не менее, похоже, он также создает свою собственную коллекцию стеммеров и стоп-слов.

Что, если я захочу добавить синонимы во встроенный анализатор «датский»? Могу ли я обратиться к встроенному датскому парадигму и фильтру стоп-слов? Например, он просто называется danish_stemmer и danish_stopwords?

Возможно поможет список встроенных фильтров - где можно посмотреть названия этих встроенных фильтров?


person Mathias Lykkegaard Lorenzen    schedule 10.01.2019    source источник


Ответы (1)


Для каждого готового языкового анализатора есть пример того, как его пересобрать. Для danish есть такой пример:

PUT /danish_example
{
  "settings": {
    "analysis": {
      "filter": {
        "danish_stop": {
          "type":       "stop",
          "stopwords":  "_danish_" 
        },
        "danish_keywords": {
          "type":       "keyword_marker",
          "keywords":   ["eksempel"] 
        },
        "danish_stemmer": {
          "type":       "stemmer",
          "language":   "danish"
        }
      },
      "analyzer": {
        "rebuilt_danish": {
          "tokenizer":  "standard",
          "filter": [
            "lowercase",
            "danish_stop",
            "danish_keywords",
            "danish_stemmer"
          ]
        }
      }
    }
  }
}

По сути, это создание собственного настраиваемого анализатора.

Список доступных стеммеров можно найти здесь< /а>. Список доступных готовых списков стоп-слов можно найти здесь.

Надеюсь, это поможет!

person Nikolay Vasiliev    schedule 11.01.2019