Повторно использовать встроенные языковые фильтры?

Я видел вопрос здесь, который показывает, как можно создать собственный анализатор, чтобы иметь как поддержку синонимов, так и поддержку языков.

Тем не менее, похоже, он также создает свою собственную коллекцию стеммеров и стоп-слов.

Что, если я захочу добавить синонимы во встроенный анализатор «датский»? Могу ли я обратиться к встроенному датскому парадигму и фильтру стоп-слов? Например, он просто называется danish_stemmer и danish_stopwords?

Возможно поможет список встроенных фильтров - где можно посмотреть названия этих встроенных фильтров?

elasticsearch-6 elasticsearch

Mathias Lykkegaard Lorenzen 10.01.2019 источник

Ответы (1)

arrow_upward
1
arrow_downward

Для каждого готового языкового анализатора есть пример того, как его пересобрать. Для danish есть такой пример:

PUT /danish_example
{
  "settings": {
    "analysis": {
      "filter": {
        "danish_stop": {
          "type":       "stop",
          "stopwords":  "_danish_" 
        },
        "danish_keywords": {
          "type":       "keyword_marker",
          "keywords":   ["eksempel"] 
        },
        "danish_stemmer": {
          "type":       "stemmer",
          "language":   "danish"
        }
      },
      "analyzer": {
        "rebuilt_danish": {
          "tokenizer":  "standard",
          "filter": [
            "lowercase",
            "danish_stop",
            "danish_keywords",
            "danish_stemmer"
          ]
        }
      }
    }
  }
}

По сути, это создание собственного настраиваемого анализатора.

Список доступных стеммеров можно найти здесь< /а>. Список доступных готовых списков стоп-слов можно найти здесь.

Надеюсь, это поможет!

Nikolay Vasiliev 11.01.2019

Повторно использовать встроенные языковые фильтры?

Ответы (1)

Вопросы по теме