В этой статье используются фундаментальные термины, используемые в алгоритмах машинного обучения, особенно в контролируемом обучении. Разница между регрессией и классификацией и другими терминами, такими как переоснащение, недостаточное соответствие, обобщение, четко объясняется на примерах.

Когда это в основном моделируется система машинного обучения, считается, что набор данных представляет собой входные данные, алгоритм - модель (черный ящик или серый ящик), а цель функций (результат входных данных) - выходные данные. После обучения модели путем введения входных и выходных данных модель разделяется, а затем к модели применяются функции (входные данные) тестовых данных. Прогнозы модели сохраняются и сравниваются с реальными результатами. Наконец, определяется точность модели. Если процент точности модели достаточен, модель можно использовать для прогнозирования выходных данных входных данных, которые предоставляются извне. Существует два основных типа задач машинного обучения с учителем, которые называются классификацией и регрессией.

В классификации, комбинация входов соответствует одному из определенного количества выходов. Если это число равно 2, это называется двоичной классификацией. Например, есть два ответа, является ли электронное письмо спамом. Да / Нет. Точно так же предположим, что набор данных состоит из изображений собак и кошек. Модель машинного обучения пытается предсказать тип изображений - кошка или собака - в соответствии с пикселями изображений. Здесь также есть 2 ярлыка: кошка или собака.

Другой метод классификации - Мультиклассовая классификация. Как следует из названия, это система, которая имеет более двух ярлыков. В качестве примера возьмем набор данных Iris, известный как «привет, мир» приложений машинного обучения. Этот набор данных состоит из 1 цели, которая представляет собой вид цветка, и 4 характеристик, а именно: длину чашелистика, ширину чашелистика, длину лепестка, ширину лепестка. В мишени 3 этикетки: setosa, versicolor и virginica. Цель проекта - предсказать виды в соответствии с заданными значениями характеристик. После того, как модель обучена заданным набором данных, значения входных данных (длина чашелистника, ширина чашелистника, длина лепестка, ширина лепестка) применяются к модели (алгоритму), и модель представляет результат (сетоса, разноцветный или вирджинский). Здесь у нас есть 3 метки для предсказания.

В регрессии, выходные данные набора данных не являются определенным числом в отличие от классификации. Скорее, он находится в числовом диапазоне, и модель соответствующим образом обучается. В качестве примера предположим, что можно прогнозировать цены на жилье в определенной области с помощью алгоритма. Входными данными (характеристиками) набора данных являются количество комнат, размер дома, наличие балкона, а выходными данными - цена дома. После обучения модели набором данных, когда мы вводим в модель уникальные (не входящие в набор данных) входные данные, алгоритм будет оценивать уникальные цены на жилье в соответствии с тем, что он узнает. Метод обучения с учителем, при котором такие результаты находятся в определенном диапазоне, называется регрессией.

Простой способ различить задачи классификации и регрессии - это спросить, есть ли какая-то непрерывность в выходных данных. Если между возможными исходами существует преемственность, тогда проблема заключается в проблеме регрессии.

Обобщение, переоснащение и недостаточное подогревание

Совместная оценка этих трех концепций была бы более полезной с точки зрения обсуждения их причин. Обобщение относится к эффекту / истинности способности в реальных приложениях после процесса обучения. Например, снова предположим, что набор данных состоит из изображений кошек и изображений собак. Даже если изображения повернуты под разными углами и / или перевернуты, человеческие глаза все равно различают, кошки они или собаки. Благодаря нашему восприятию мы можем легко сделать вывод, что это собака или кошка. С другой стороны, машинное обучение прилагает к этому усилия.

В другом примере судоходная компания хочет разослать людям рекламное электронное письмо. Компания также хочет предсказать, каким людям ее отправлять, обучая данные в базе данных клиентов. Когда мы смотрим на набор данных, видно, что люди, покупающие лодку, старше 45 лет, имеют менее 3 детей или разведены. Согласно имеющимся у нас данным, точность этой модели составляет 100%!

С другой стороны, когда мы смотрим на возраст людей, которые покупают лодку, можно заметить, что возраст покупателей составляет 66, 52, 53, 58 лет. Другими словами, было бы неплохо выдвинуть предложение. тезис о том, что люди старше 50 лет склонны покупать лодку. Но когда мы смотрим на набор данных, мы можем заметить, что тот, кто старше 50 лет, не покупал лодку, поэтому точность этой модели не составляет 100%.

А теперь сравним две подготовленные модели. Первая модель, в которой есть условия «старше 45 лет и менее 3-х детей или разведены», более сложна, чем вторая. Хотя точность сложной модели составляет 100%, это не является предпочтительным для алгоритма, поскольку в этой сложной модели существует ситуация переобучения. Если модель сформирована близко к характеристикам обучающей выборки, но не может быть обобщена с помощью случайно добавленных данных извне, происходит переобучение. Кроме того, как видно из примера, точность набора данных очень высока. Такие модели запоминают набор данных, а не изучают его. Иными словами, если модель слишком проста и точность слишком низкая, это называется недостаточным соответствием.

Существует множество способов предотвратить переобучение и недообучение. В случае переобучения можно использовать следующие методы для предотвращения:

Добавление дополнительных данных

Увеличение данных

Регуляризация

Удаление некоторых функций из данных

В случае недостаточного соответствия:

Повышение сложности модели

Уменьшение регуляризации,

Добавление функций к обучающим данным

Чем более сложной мы позволим нашей модели быть, тем лучше мы сможем прогнозировать данные обучения. Однако, если наша модель становится слишком сложной, мы начинаем уделять слишком много внимания каждой точке данных в нашем обучающем наборе, и модель может плохо обобщаться на новые данные. Есть приятный момент - лучшая производительность обобщения. Это модель, которую мы хотим найти.

Вернуться к руководству нажмите здесь