Создание токенов для заголовков электронной почты для lucene

Вот пример определения заголовка в rfc822, rfc2822 и MIME. Теперь я хочу создать полнотекстовый поиск с помощью lucene. Если я использую стандартный анализатор, он создаст слишком много бесполезных токенов, что снизит производительность. Есть ли способ создать хорошие токены, написав собственный анализатор и токенизатор.

От [email protected]

Интернет-заголовки Microsoft Mail версии 2.0

Получено: от sdlasd02.medicis.com ([172.23.163.35]) через mpc-exchange.medicis.com с

Microsoft SMTPSVC (6.0.3790.3959); Пн, 1 июня 2009 г. 04:30:59 -07:00

Получено: из службы доставки почты sdlasd02.medicis.com с Microsoft SMTPSVC; Пн, 1 июня 2009 г. 04:30:59 -07:00

Получено: от SDLMAIL01.medicis.com ([98.175.1.32]) от sdlasd02.medicis.com с Microsoft SMTPSVC (6.0.3790.1830); Пн, 1 июня 2009 г. 04:30:59 -07:00

Обратный путь: [email protected]

X-CTCH-ID: CFBA793F-FB3C-4DEB-A504-C6165B493680

X-CTCH-RefID: str=0001.0A090202.4A23BBF3.009A,ss=1,fgs=0

X-CTCH-Action: игнорировать


person Princesh    schedule 16.10.2012    source источник


Ответы (1)


обычно вы добавляете одно поле для каждого заголовка, который вы хотите сохранить (например, Date, Message-ID, From: и т. д.), и игнорируете остальные. Каждое поле будет соответствующего типа и проанализировано соответствующим образом.

person Persimmonium    schedule 17.10.2012
comment
Спасибо за быстрый ответ, но даже если вы сохранили значение для каждого файла, его значение может быть ненужным. Также RFC2822 определяет только состояния любых символов ASCII. - person Princesh; 18.10.2012