dbpedia html в результате

Иногда я узнаю некоторые фрагменты html в свойстве dbpedia-owl:abstract

Вот пример http://dbpedia.org/page/Albizia_julibrissin, где вы видите некоторые фрагменты HTML ( выделено) в аннотации на английском языке:

Эта страница о дереве, описанном Антонио Дураццини. Джон Гилберт Бейкер использовал то же научное название для обозначения Albizia kalkora Прайна, Mimosa kalkora Уильяма Роксбурга. colspan=2 style="text-align: center; background-color: прозрачный; text-align:center; граница: 1 пиксель, сплошной красный;" | Персидское шелковое дерево Файл: Albizzia julibrissin в Севастополе 1. jpg Хабитус Статус сохранения Не оценено colspan=2 style="text-align: center; background-color: Transparent; text-align:center; border: 1px сплошной красный;" | Научная классификация Царство: Plantae (без рейтинга): Покрытосеменные (без рейтинга): Eudicots (без рейтинга): Rosids Отряд: Fabales Семейство: Fabaceae Род: Albizia Виды: A. julibrissin colspan=2 style="text-align: center; background-color: прозрачный; выравнивание текста: по центру; граница: 1 пиксель сплошной красный;" | Биномиальное имя Albizia julibrissin colspan=2 style="text-align: center; background-color: прозрачный; text-align:center; border: 1px сплошной красный;" | Синонимы Многие, см. текст Albizia julibrissin — вид бобовых растений рода Albizia, произрастающих в юго-западной и восточной Азии, от Персии на восток до Китая и Кореи. Он также широко известен как «мимоза» и «персидское шелковое дерево». Род назван в честь итальянского дворянина Филиппо дельи Альбицци, принадлежащего к знаменитой флорентийской семье Альбицци, которая завезла его в Европу в середине 18 века. это иногда неправильно пишется Albizzia.Специфический эпитет julibrissin является искажением персидского слова gul-i abrisham (گل ابریشم), что означает «цветок шелка» (от gul گل «цветок» + abrisham ابریشم «шелк»).

Есть ли способ удалить/извлечь эти фрагменты, чтобы абстрактное свойство было удобочитаемым для человека?


person Ralf Rubel    schedule 14.06.2013    source источник


Ответы (1)


Это проблема в вводе данных dbpedia. Заголовок

«Эта страница посвящена дереву, описанному Антонио Дураццини. Джон Гилберт Бейкер использовал то же научное название, чтобы сослаться на Альбицию Какору Прайна, Мимозу Какору Уильяма Роксбурга».

обычно не ассоциируется со свойством dbpedia-owl: abstract.

С конечной точки DBpedia SPARQL решение SPARQL 1.1 выглядит следующим образом:

select distinct ?clean_abstract 
where {
  <http://dbpedia.org/resource/Albizia_julibrissin> <http://dbpedia.org/ontology/abstract> ?abstract.
  filter (lang(?abstract) = 'en')
  bind (strafter(?abstract,"see text ") as ?clean_abstract)
}

И другое решение, включающее этот заголовок (но оно не должно быть связано с этим свойством):

select distinct ?clean_abstract 
where {
  <http://dbpedia.org/resource/Albizia_julibrissin> <http://dbpedia.org/ontology/abstract> ?abstract.
  filter (lang(?abstract) = 'en')
  bind (concat(strbefore(?abstract,"colspan="), strafter(?abstract,"see text ")) as ?clean_abstract)
}
person Julien Homo    schedule 15.06.2013
comment
Большое спасибо за ваш ответ. Ваши предложения будут работать для http://dbpedia.org/page/Albizia_julibrissin, но не подойдут в целом. Есть и другие примеры, т.е. http://dbpedia.org/page/Cinnamomum_camphora, где заголовок должен быть разделен по-другому. К сожалению, я не вижу шаблона, который работал бы для всех примеров. - person Ralf Rubel; 21.06.2013