Оценка методов идентификации языка

Частью моей дипломной работы является оценка количества уже доступных методов определения языка, а затем, наконец, реализация одного из них. Для этого я выбрал следующие методы,

Категоризация текста на основе N-грамм от Cavnar и Trenkle
Статистическая идентификация языка Теда Даннинга
Использование языковых моделей на основе сжатия для категоризации текста Тиханом и Харпером
Обнаружение набора символов
Составной подход к обнаружению языка/кодировки

Я должен сначала оценить методы и желательно представить таблицу с точностью для каждого из этих методов. Мой вопрос заключается в том, чтобы определить точность каждого из этих методов, нужно ли мне создавать языковые модели с использованием обучающих данных, затем проверять их и записывать точность, или есть ли какой-либо другой подход, которому я могу следовать здесь. Хотя большинство исследований уже включают эти таблицы точности, я не уверен, что в моем образовании принято просто брать их и представлять в отчете.

Цените любые мысли по этому поводу.

avizzzy 28.10.2014 источник

comment

Похоже, это вопрос к вашему научному руководителю. - Jim Mischel 29.10.2014

comment

Метаанализ (составление и обобщение предыдущих исследований) является приемлемым исследованием, но, вероятно, в данном случае недостаточным для получения степени магистра. Многое зависит и от вашего предмета. Это промышленная обработка, информатика, машинное обучение, компьютерная лингвистика или что? - tripleee 29.10.2014

comment

Если вы говорите оценить, а затем построить, как бы вы оценили то, что вы еще не реализовали, кроме как просто сообщив предыдущие результаты и рассуждая (расплывчато) о сильных и слабых сторонах? - tripleee 29.10.2014

Ответы (1)

arrow_upward
1
arrow_downward

Я бы также посоветовал обратиться к научному руководителю вашей диссертации. Реализовать их все будет много работы, и очень сложно их реально сравнить, не имея возможности протестировать. Если я правильно помню, последние три не получили должной оценки в литературе, поэтому было бы трудно сравнивать их результаты. Я реализовал (и оценил) только первый из них. Один большой вопрос также заключается в том, насколько большой частью вашей диссертации является оценка и реализация LI?

Tommi J. 29.10.2014

comment

Оценка и внедрение LI — один из шести исследовательских вопросов, которые я задал в своей диссертации. Степень бакалавра, которую я получаю, - это математика и приложения, все обучение было сосредоточено на алгоритмах, структурах данных и различных языках программирования. Итак, в своей диссертации я сделал следующее, проанализировав их рабочий процесс - avizzzy; 29.10.2014

comment

Продолжение.. 1.Анализ рабочего процесса на LSP, 2.Анализ открытого API перевода, 3.Реализация сервера для LSP с помощью API, 4.Добавление LI на сервер. Так что реализовать LI не так уж и сложно, я просто ищу способы показать, почему я выбрал тот или иной метод. - avizzzy; 29.10.2014

Оценка методов идентификации языка

Ответы (1)

Вопросы по теме