Мне нужно найти способ пометить ссылки на публикации в тексте. Мы делали это с помощью регулярных выражений, но эти новые шаблоны не будут работать.
Некоторые примеры (язык немецкий):
Herzog (август 2012 г.), Einkommensteuerskriptum Band 1, S 8
Ахатц/Бибер в Achatz/Kirchmayr, Körperschaftsteuergesetz (2011)
Генрих в Quantschnigg/Renner/Schellmann/Stöger, Die Körperschaftsteuer (2013) § 7 Rz 32
Raab/Renner in Quantschnigg/Renner/Schellmann/Stöger/Vock, Die Körperschaftsteuer, 24. Lfg., § 8 Tz 292 293
Quantschnigg/Renner/Schellmann/Stöger/Vock (Hrsg), KStG23 (2013) § 13 Rz 67
Таким образом, это в основном начинается с имен авторов и названия публикации, но затем становится довольно разнообразным. Это может выглядеть не так плохо в примерах, но я мог бы привести еще кучу, которые снова выглядят по-другому.
Поэтому я подумал, что это может быть задачей для машинного обучения. Однако, имея очень небольшой опыт в этой области, мне трудно найти правильную технику.
Я нашел теги POS, но, похоже, это не тот способ, которым можно здесь воспользоваться. Я также наткнулся на CRF, но там мало материала, который мог бы помочь новичку вроде меня.
Я сделал некоторую классификацию и регрессию в sklearn, но это все.
Может ли кто-нибудь указать мне в правильном направлении?
machine-learning
иnatural-language-processing
и, возможно, вы получите более четкое представление. Потому что задача пока звучит немного нечетко. Как только вы узнаете немного больше о том, что возможно и что доступно, вы сможете разбить проблему на несколько подзадач и справиться с ними =) См. stackoverflow.com/questions/34791491/ - person alvas   schedule 22.01.2016