Количество экземпляров или содержание экземпляров важнее (машинное обучение)?

Скажем, в области классификации документов, если у меня есть набор данных из 1000 экземпляров, но экземпляры (документы) имеют довольно небольшой контент; и у меня есть еще один набор данных, скажем, из 200 экземпляров, но каждый отдельный экземпляр с более богатым содержанием. Если IDF меня не касается, будет ли количество экземпляров иметь значение при обучении? Учитывают ли это алгоритмы классификации?

Спасибо. Сэм


person samsamara    schedule 13.05.2012    source источник
comment
Я не понимаю вопроса. Что учитывать? Что именно вы спрашиваете? О каком алгоритме вы думаете? (каждый ведет себя по разному) и какие у вас особенности из текста?   -  person amit    schedule 13.05.2012
comment
Извините, если вам непонятно. Под этим я подразумеваю, учитывают ли алгоритмы классификации, такие как SVM, kNN, NaiveBayes, количество экземпляров в наборе обучающих данных? В задаче классификации текста функциями будут слова или N-граммы.   -  person samsamara    schedule 13.05.2012
comment
Хорошо, это я могу понять, но я не могу понять, о чем вы говорите о размере каждого документа в вопросе. Также существует более одного способа использовать слова или N-граммы в качестве признаков.   -  person amit    schedule 13.05.2012
comment
да, есть несколько способов сделать это, я согласен. Если у меня есть набор данных1 со многими экземплярами и набор данных2 с несколькими экземплярами, и оба набора данных дают одинаковое количество информации, имеет ли значение количество экземпляров при обучении?   -  person samsamara    schedule 13.05.2012


Ответы (1)


Вы можете представить это как общую проблему машинного обучения. Простейшая проблема, которая может помочь вам понять, какое значение имеет размер обучающих данных, — это подбор кривой.

Неопределенность и систематическая ошибка классификатора или подобранной модели зависят от размера выборки. Небольшой размер выборки — хорошо известная проблема, которую мы часто пытаемся избежать, собирая больше обучающих выборок. Это связано с тем, что оценка неопределенности нелинейных классификаторов оценивается линейной аппроксимацией модели. И эта оценка точна только при наличии большого количества выборок в качестве основного условия центральной предельной теоремы.

Доля выбросов также является важным фактором, который следует учитывать при выборе размера обучающей выборки. Если больший размер выборки означает большую долю выбросов, следует ограничить размер выборки.

Размер документа на самом деле является косвенным индикатором размера пространства признаков. Если, например, из каждого документа у вас есть только 10 признаков, то вы пытаетесь разделить/классифицировать документы в 10-мерном пространстве. Если у вас есть 100 признаков в каждом документе, то то же самое происходит и в 100-мерном пространстве. Я думаю, вам легко увидеть, что рисовать линии, разделяющие документы в более высоком измерении, проще.

Как для размера документа, так и для размера выборки эмпирическое правило заключается в максимально возможном увеличении, но на практике это невозможно. И, например, если вы оцениваете функцию неопределенности классификатора, вы обнаружите порог, при котором размеры выборки выше этого значения практически не приводят к снижению неопределенности и систематической ошибки. Эмпирически вы также можете найти этот порог для некоторых задач с помощью моделирования методом Монте-Карло.

Большинство инженеров не утруждают себя оценкой неопределенности, и это часто приводит к неоптимальному поведению реализуемых ими методов. Это нормально для игрушечных задач, но в реальных задачах учет неопределенности оценок и вычислений жизненно важен для большинства систем. Надеюсь, что в какой-то степени ответил на ваши вопросы.

person fireant    schedule 13.05.2012