Пометка ссылок/цитатов в тексте

Мне нужно найти способ пометить ссылки на публикации в тексте. Мы делали это с помощью регулярных выражений, но эти новые шаблоны не будут работать.

Некоторые примеры (язык немецкий):

Herzog (август 2012 г.), Einkommensteuerskriptum Band 1, S 8

Ахатц/Бибер в Achatz/Kirchmayr, Körperschaftsteuergesetz (2011)

Генрих в Quantschnigg/Renner/Schellmann/Stöger, Die Körperschaftsteuer (2013) § 7 Rz 32

Raab/Renner in Quantschnigg/Renner/Schellmann/Stöger/Vock, Die Körperschaftsteuer, 24. Lfg., § 8 Tz 292 293

Quantschnigg/Renner/Schellmann/Stöger/Vock (Hrsg), KStG23 (2013) § 13 Rz 67

Таким образом, это в основном начинается с имен авторов и названия публикации, но затем становится довольно разнообразным. Это может выглядеть не так плохо в примерах, но я мог бы привести еще кучу, которые снова выглядят по-другому.

Поэтому я подумал, что это может быть задачей для машинного обучения. Однако, имея очень небольшой опыт в этой области, мне трудно найти правильную технику.

Я нашел теги POS, но, похоже, это не тот способ, которым можно здесь воспользоваться. Я также наткнулся на CRF, но там мало материала, который мог бы помочь новичку вроде меня.

Я сделал некоторую классификацию и регрессию в sklearn, но это все.

Может ли кто-нибудь указать мне в правильном направлении?


person pypat    schedule 22.01.2016    source источник
comment
То, что вы, вероятно, захотите сделать, это распознавание именованных сущностей. POS, вероятно, не поможет вам. Вероятно, хорошей технологией являются условные случайные поля.   -  person CAFEBABE    schedule 22.01.2016
comment
Как я упоминал в своем посте, я думал о CRF (заметил опечатку в моем посте), но почти нет информации о том, как начать с ними. Есть несколько библиотек, но есть небольшие руководства по созданию собственных моделей для них.   -  person pypat    schedule 22.01.2016
comment
Прочтите больше о machine-learning и natural-language-processing и, возможно, вы получите более четкое представление. Потому что задача пока звучит немного нечетко. Как только вы узнаете немного больше о том, что возможно и что доступно, вы сможете разбить проблему на несколько подзадач и справиться с ними =) См. stackoverflow.com/questions/34791491/   -  person alvas    schedule 22.01.2016