preserve_original исходный токен в elasticsearch

У меня есть фильтр токенов и анализатор следующим образом. Однако я не могу сохранить исходный токен. Например, если я _analyze использую слово: saint-louis, я верну только saintlouis, тогда как я ожидал получить оба saintlouis and saint-louis, поскольку у меня есть preserve_original set to true. ES version i am using is 6.3.2 and Lucene version is 7.3.1

"analysis": {
  "filter": {
    "hyphenFilter": {
      "pattern": "-",
      "type": "pattern_replace",
      "preserve_original": "true",
      "replacement": ""
    }
  },
  "analyzer": {
    "whitespace_lowercase": {
      "filter": [
        "lowercase",
        "asciifolding",
        "hyphenFilter"
      ],
      "type": "custom",
      "tokenizer": "whitespace"
    }
  }
}

person Ramesh K    schedule 27.02.2020    source источник
comment
Вы можете решить проблему?   -  person user156327    schedule 02.03.2020
comment
@OpsterElasticsearchNinja Я перешел на использование фильтра токенов разделителя слов. Я думаю, что фильтр pattern_replace не поддерживает флаг preserve_original. По крайней мере, не в той версии, которую я использую.   -  person Ramesh K    schedule 02.03.2020
comment
Хотели бы вы опубликовать ответ, это поможет другим участникам сообщества   -  person user156327    schedule 02.03.2020
comment
@OpsterElasticsearchNinja Я сделаю это, спасибо.   -  person Ramesh K    schedule 02.03.2020
comment
@OpsterElasticsearchNinja, я опубликовал свой ответ. Не стесняйтесь изменять любую деталь, если это необходимо.   -  person Ramesh K    schedule 02.03.2020
comment
Спасибо, но я бы посоветовал вам предоставить все настройки и отображение в формате JSON, чтобы каждый мог их протестировать и использовать. Вы можете сослаться на мой поиск stackoverflow.com/questions/60487022/ и stackoverflow.com/questions/60479170/ о том, как их предоставить.   -  person user156327    schedule 02.03.2020


Ответы (1)


Похоже, что preserve_original не поддерживается pattern_replace фильтрами токенов, по крайней мере, не в той версии, которую я использую.

Я сделал следующее обходное решение:

Индекс Def

{
    "settings": {
        "analysis": {
            "analyzer": {
                "my_analyzer": {
                    "tokenizer": "whitespace",
                    "type": "custom",
                    "filter": [
                        "lowercase",
                        "hyphen_filter"
                    ]
                }
            },
            "filter": {
                "hyphen_filter": {
                    "type": "word_delimiter",
                    "preserve_original": "true",
                    "catenate_words": "true"
                }
            }
        }
    }
}

Это, например, приведет к токенизации такого слова, как anti-spam, в antispam(removed the hyphen), anti-spam(preserved the original), anti и spam..

API анализатора для просмотра сгенерированных токенов

POST / _analyze

{"text": "антиспам", "анализатор": "my_analyzer"}

Вывод аналитического API, т.е. сгенерированные токены

{
    "tokens": [
        {
            "token": "anti-spam",
            "start_offset": 0,
            "end_offset": 9,
            "type": "word",
            "position": 0
        },
        {
            "token": "anti",
            "start_offset": 0,
            "end_offset": 4,
            "type": "word",
            "position": 0
        },
        {
            "token": "antispam",
            "start_offset": 0,
            "end_offset": 9,
            "type": "word",
            "position": 0
        },
        {
            "token": "spam",
            "start_offset": 5,
            "end_offset": 9,
            "type": "word",
            "position": 1
        }
    ]
}
person Ramesh K    schedule 02.03.2020
comment
Исправлены проблемы с форматированием в вашем отображении, так как, когда я пытался, он давал ошибки форматирования в вашем отображении и правильно отформатировал ваш ответ :-) и упростил задачу, чтобы любой мог протестировать, следуя примеру. - person user156327; 05.03.2020