Разбор специальных символов HTML

Я ищу класс java для анализа всех специальных символов HTML. Я думаю, что это общая проблема, но я не могу найти быстрое решение прямо сейчас.

Что я хочу получить:

input: thè --> output: thè
input: »
input: &lraquo;
...

Ты знаешь что-нибудь полезное для меня?


person BigG    schedule 02.11.2010    source источник


Ответы (2)


Попробуйте служебный класс StringEscapeUtils. Проверьте документы для метода StringEscapeUtils.unescapeHtml().

Документы здесь:

http://commons.apache.org/lang/api-release/org/apache/commons/lang/StringEscapeUtils.html

Скачать здесь:

http://commons.apache.org/lang/

person worpet    schedule 02.11.2010

Вы гуглили об этом? Первая ссылка на «парсер сущностей HTML-разметки Java» относится к html-тексту. экстрактор

Кажется, это то, что вам нужно.

Кроме того, вы можете изучить средства визуализации javax.swing.JLabel (и других текстовых компонентов Swing).

person khachik    schedule 02.11.2010