В основном я хочу извлечь ключевые слова, слова или токены, которые присутствуют на веб-странице, после удаления стоп-слов. Кто-нибудь знает, как это сделать? Код на С# приветствуется.
Как извлечь ключевые слова из HTML-страницы на С#?
comment
Возможно, вам следует пометить это тегом [c#]
- person brickner   schedule 10.05.2010
comment
если все, что вам нужно, это получить данные с веб-страницы, вы можете использовать JQuery, как показано ниже $('#testDIV').load('JQueryPage.aspx');
- person Amr Badawy   schedule 10.05.2010
Ответы (2)
Используйте библиотеку анализа HTML, например HTML Agility Pack.
Как только вы загрузите с ним HTML-документ, вы можете запросить его с помощью синтаксиса Xpath — он предоставляет HTML аналогично XmlDocument
.
person
Oded
schedule
09.05.2010
HTML Agility Pack, который Oded упоминания помогут вам получить обычный текст внутри HTML, но для извлечения ключевых слов из веб-страницы после удаления стоп-слов вам потребуется проделать дополнительную работу. На этот вопрос есть хороший информативный ответ от Джозефа Туриана: Как извлечь ключевые слова, используемые в тексте?
person
dumbledad
schedule
25.02.2012