Lucene .NET Azure Blob Storage и IFilter

Как лучше всего использовать IFilter для извлечения текстового содержимого из pdf/word/где-либо еще в решении Azure?

Я видел примеры IFilter, использующих поток, но каким должно быть содержимое потока? Должен ли он содержать какие-то заголовки OLE, а что нет?

Отправка необработанного содержимого файла в виде потока в IFilter, похоже, не работает.

Или было бы лучше сохранить файлы в локальном хранилище файлов и позволить IFilter читать их из этого места?


person Roger Johansson    schedule 23.08.2011    source источник


Ответы (1)


использование ifilter в azure будет затруднительным, потому что некоторые из ifilter, которые распространены на настольных компьютерах, недоступны в роли azure web/worker.

Вы можете создать надежную виртуальную машину в Azure и установить недостающие фильтры ifilters.

Однако, если вы собираетесь создать свой индекс Lucene через веб-загрузку, вы можете просто преобразовать файлы в текст по мере их загрузки, а затем проиндексировать текст и сохранить файл отдельно. Добавьте в индекс поле, которое позволит вам вернуться к исходному документу.

Может быть, это проще, но я решил ту же проблему именно так.

person user28636    schedule 11.10.2012