разработка корпоративной поисковой системы прошу совета

Меня просят либо развернуть, либо разработать корпоративную (внутрисетевую) поисковую систему, которая могла бы индексировать все веб-страницы пары внутренних серверов и иметь поисковый портал для отображения всего соответствующего контента, подобно тому, что делает Google, но для интрасети.

Любые советы, как разработать или развернуть быстро? Я слышал о продукте Microsoft FAST, не знаю, предназначен ли он для этой цели?

заранее спасибо, Джордж


person George2    schedule 27.07.2009    source источник
comment
Интранет-часть называется Enterprise Search for Business Productivity: microsoft.com /enterprisearch/en/us/business-productivity.aspx   -  person Dan Gøran Lunde    schedule 15.08.2009


Ответы (5)


В зависимости от уровня полировки, который вам нужен, проект Nutch станет для вас почти готовым решением. http://lucene.apache.org/nutch/

person Kevin Peterson    schedule 27.07.2009
comment
Что значит уровень полировки вам нужен? - person George2; 27.07.2009
comment
Вероятно, вам придется написать свой собственный интерфейс. Я предполагаю, но из связанных инструментов (Solr) интерфейс, вероятно, будет выглядеть так, как может использовать инженер. - person Kevin Peterson; 27.07.2009
comment
Спасибо пб! Это именно то, чего я хочу. Если мне нужно настроить часть ранжирования или какую-либо другую часть сопоставления релевантности, какие-либо API-интерфейсы, предоставляемые Nutch? Легко ли продлить? Мое требование состоит в том, что мне нужно разработать определенный язык и отраслевой поиск, поэтому мне нужны специальные ключевые слова для извлечения, ранжирования и т. д. Есть совет? - person George2; 27.07.2009

Google Search Appliance — это аппаратное решение, которое, возможно, вам будет интересно попробовать. .

Программным подходом может быть поисковая система Lucene.

person lomaxx    schedule 27.07.2009
comment
Круто, и у них обоих есть встроенные алгоритмы релевантности и ранжирования? - person George2; 27.07.2009
comment
Я не думаю, что Lucene настолько сложна. Это просто очень хороший поисковик по ключевым словам. (Не сбиваю с толку, я использовал его более чем в одном проекте.) - person Rex M; 31.07.2009

Бесплатное решение Microsoft — Microsoft Search Server Express. Работает аналогично поиску в SharePoint.

person Paul van Brenk    schedule 27.07.2009
comment
Похоже, что Windows Search Server Express может поддерживать обход содержимого только из SharePoint и работать поверх SharePoint? - person George2; 27.07.2009
comment
Индексируйте содержимое файловых серверов, веб-сайтов, служб Windows SharePoint Services, Microsoft Office SharePoint Server, общих папок Exchange Server и репозиториев Lotus Notes. И является автономной установкой. - person Paul van Brenk; 27.07.2009
comment
Спасибо пб! Это именно то, чего я хочу. Если мне нужно настроить часть ранжирования или какую-либо другую часть сопоставления релевантности, какие-либо API? - person George2; 27.07.2009
comment
Не знаю. Использовался только функционал OOB. - person Paul van Brenk; 27.07.2009

Джордж,

Похоже, вы очень торопитесь.

Вам лучше начать возлагать надежды на повторную работу, повторную работу, повторную работу.

Я настоятельно рекомендую вам потратить время на то, чтобы

  • установить требования, возможно, как базовые, средние и голубые

  • определить, какие поисковые системы, внешние интерфейсы, поисковые роботы и т. д. (с открытым исходным кодом или предоставленные поставщиком) могут действительно удовлетворить ваши требования.

  • определить доступную поддержку для этих инструментов и вероятность получения своевременных и работоспособных ответов или обходных путей (по крайней мере, с открытым исходным кодом это не входит в контракт на поддержку)

  • не пытайтесь сделать все сразу. Сначала сделайте наименьший набор данных, независимо от того, насколько высоко в управлении находится ваш спонсор. Вы не будете тратить месяцы на тесты только для того, чтобы обнаружить фатальную крупномасштабную ошибку в системе или вашем плане.

  • общаться с вашей командой и спонсорами, создавая дорожную карту для ваших различных уровней или требований, с контрольными точками

  • Что касается предварительного планирования даже небольшого или среднего корпоративного поискового проекта, я настоятельно рекомендую книгу Мартина Уайта «Как заставить поиск работать».

https://rads.stackoverflow.com/amzn/click/com/1573873055

Я думаю, вы обнаружите, что ранжирование и релевантность являются одними из самых важных составляющих получения хорошего поискового решения. Механизмы, вероятно, предоставляют схожие функции, но детали того, как это сделать, будут отличаться, И, что более важно, успех, которого вы добьетесь при принудительной релевантности, будет лишь частично зависеть от выбранной вами поисковой системы. Иными словами, если ваш текст не соответствует алгоритму поисковых систем, вы потратите много времени, пытаясь понять различные параметры настройки и их комбинаторику. (Пока я знаком только с двумя, поэтому другие могут опровергнуть это).

Это отличный опыт обучения. Удачи.

person user141107    schedule 31.07.2009

FAST — отличный продукт для корпоративного поиска. Обычно он занимает первое место во всех оценках консалтинговых фирм. Однако для этого требуется умеренная техническая настройка и поддержка.

Google — еще один солидный продукт, но он очень дорогой. Он требует меньше технической поддержки, но и дает вам меньше контроля над результатами поиска.

person DMurph11    schedule 24.11.2009