Оценка методов идентификации языка

Частью моей дипломной работы является оценка количества уже доступных методов определения языка, а затем, наконец, реализация одного из них. Для этого я выбрал следующие методы,

  1. Категоризация текста на основе N-грамм от Cavnar и Trenkle
  2. Статистическая идентификация языка Теда Даннинга
  3. Использование языковых моделей на основе сжатия для категоризации текста Тиханом и Харпером
  4. Обнаружение набора символов
  5. Составной подход к обнаружению языка/кодировки

Я должен сначала оценить методы и желательно представить таблицу с точностью для каждого из этих методов. Мой вопрос заключается в том, чтобы определить точность каждого из этих методов, нужно ли мне создавать языковые модели с использованием обучающих данных, затем проверять их и записывать точность, или есть ли какой-либо другой подход, которому я могу следовать здесь. Хотя большинство исследований уже включают эти таблицы точности, я не уверен, что в моем образовании принято просто брать их и представлять в отчете.

Цените любые мысли по этому поводу.


person avizzzy    schedule 28.10.2014    source источник
comment
Похоже, это вопрос к вашему научному руководителю.   -  person Jim Mischel    schedule 29.10.2014
comment
Метаанализ (составление и обобщение предыдущих исследований) является приемлемым исследованием, но, вероятно, в данном случае недостаточным для получения степени магистра. Многое зависит и от вашего предмета. Это промышленная обработка, информатика, машинное обучение, компьютерная лингвистика или что?   -  person tripleee    schedule 29.10.2014
comment
Если вы говорите оценить, а затем построить, как бы вы оценили то, что вы еще не реализовали, кроме как просто сообщив предыдущие результаты и рассуждая (расплывчато) о сильных и слабых сторонах?   -  person tripleee    schedule 29.10.2014


Ответы (1)


Я бы также посоветовал обратиться к научному руководителю вашей диссертации. Реализовать их все будет много работы, и очень сложно их реально сравнить, не имея возможности протестировать. Если я правильно помню, последние три не получили должной оценки в литературе, поэтому было бы трудно сравнивать их результаты. Я реализовал (и оценил) только первый из них. Один большой вопрос также заключается в том, насколько большой частью вашей диссертации является оценка и реализация LI?

person Tommi J.    schedule 29.10.2014
comment
Оценка и внедрение LI — один из шести исследовательских вопросов, которые я задал в своей диссертации. Степень бакалавра, которую я получаю, - это математика и приложения, все обучение было сосредоточено на алгоритмах, структурах данных и различных языках программирования. Итак, в своей диссертации я сделал следующее, проанализировав их рабочий процесс - person avizzzy; 29.10.2014
comment
Продолжение.. 1.Анализ рабочего процесса на LSP, 2.Анализ открытого API перевода, 3.Реализация сервера для LSP с помощью API, 4.Добавление LI на сервер. Так что реализовать LI не так уж и сложно, я просто ищу способы показать, почему я выбрал тот или иной метод. - person avizzzy; 29.10.2014