Вот пример определения заголовка в rfc822, rfc2822 и MIME. Теперь я хочу создать полнотекстовый поиск с помощью lucene. Если я использую стандартный анализатор, он создаст слишком много бесполезных токенов, что снизит производительность. Есть ли способ создать хорошие токены, написав собственный анализатор и токенизатор.
Интернет-заголовки Microsoft Mail версии 2.0
Получено: от sdlasd02.medicis.com ([172.23.163.35]) через mpc-exchange.medicis.com с
Microsoft SMTPSVC (6.0.3790.3959); Пн, 1 июня 2009 г. 04:30:59 -07:00
Получено: из службы доставки почты sdlasd02.medicis.com с Microsoft SMTPSVC; Пн, 1 июня 2009 г. 04:30:59 -07:00
Получено: от SDLMAIL01.medicis.com ([98.175.1.32]) от sdlasd02.medicis.com с Microsoft SMTPSVC (6.0.3790.1830); Пн, 1 июня 2009 г. 04:30:59 -07:00
Обратный путь: [email protected]
X-CTCH-ID: CFBA793F-FB3C-4DEB-A504-C6165B493680
X-CTCH-RefID: str=0001.0A090202.4A23BBF3.009A,ss=1,fgs=0
X-CTCH-Action: игнорировать