Как извлечь ключевые слова из HTML-страницы на С#?

В основном я хочу извлечь ключевые слова, слова или токены, которые присутствуют на веб-странице, после удаления стоп-слов. Кто-нибудь знает, как это сделать? Код на С# приветствуется.


person jaskirat    schedule 09.05.2010    source источник
comment
Возможно, вам следует пометить это тегом [c#]   -  person brickner    schedule 10.05.2010
comment
если все, что вам нужно, это получить данные с веб-страницы, вы можете использовать JQuery, как показано ниже $('#testDIV').load('JQueryPage.aspx');   -  person Amr Badawy    schedule 10.05.2010


Ответы (2)


Используйте библиотеку анализа HTML, например HTML Agility Pack.

Как только вы загрузите с ним HTML-документ, вы можете запросить его с помощью синтаксиса Xpath — он предоставляет HTML аналогично XmlDocument.

person Oded    schedule 09.05.2010

HTML Agility Pack, который Oded упоминания помогут вам получить обычный текст внутри HTML, но для извлечения ключевых слов из веб-страницы после удаления стоп-слов вам потребуется проделать дополнительную работу. На этот вопрос есть хороший информативный ответ от Джозефа Туриана: Как извлечь ключевые слова, используемые в тексте?

person dumbledad    schedule 25.02.2012