Частью моей дипломной работы является оценка количества уже доступных методов определения языка, а затем, наконец, реализация одного из них. Для этого я выбрал следующие методы,
- Категоризация текста на основе N-грамм от Cavnar и Trenkle
- Статистическая идентификация языка Теда Даннинга
- Использование языковых моделей на основе сжатия для категоризации текста Тиханом и Харпером
- Обнаружение набора символов
- Составной подход к обнаружению языка/кодировки
Я должен сначала оценить методы и желательно представить таблицу с точностью для каждого из этих методов. Мой вопрос заключается в том, чтобы определить точность каждого из этих методов, нужно ли мне создавать языковые модели с использованием обучающих данных, затем проверять их и записывать точность, или есть ли какой-либо другой подход, которому я могу следовать здесь. Хотя большинство исследований уже включают эти таблицы точности, я не уверен, что в моем образовании принято просто брать их и представлять в отчете.
Цените любые мысли по этому поводу.