30 дней науки о данных — День 1: Проблемы регрессии

Данные. У нас их тонны, и с каждым днем мы собираем все больше и больше. Звучит как крутая вещь, но без использования данные со временем теряют свою ценность. Один из замечательных способов обработки данных — использовать их для прогнозирования будущего. Звучит круто, верно?

Машинное обучение в помощь

Вот статья (написанная мной), объясняющая некоторые аспекты машинного обучения и что это такое.

Как правило, алгоритмы машинного обучения работают, делая прогнозы на основе данных. Алгоритм машинного обучения просматривает данные и пытается найти шаблоны, которые связывают функции (переменные, используемые для прогнозирования) с метками. (переменная, которую мы хотим предсказать). Чем больше данных у алгоритма, тем лучше он может изучить эти шаблоны.

Это не происходит по волшебству, и существуют разные подходы к поиску шаблонов в данных, каждый из которых имеет свой вариант использования. Мы могли бы разделить их на:

Контролируемое обучение

Обучение с учителем – это тип машинного обучения, в котором для обучения моделей машинного обучения используются размеченные данные. В размеченных данных выходные данные уже известны. Модель просто должна сопоставить входные данные с соответствующими выходными данными.

Примером обучения с учителем является обучение системы, которая идентифицирует изображение животного, показывая ему изображения вместе с тем, что это такое.

Неконтролируемое обучение

Неконтролируемое обучение — это тип машинного обучения, в котором для обучения машин используются немаркированные данные. Немаркированные данные не имеют фиксированной выходной переменной. Модель учится на данных, обнаруживает закономерности и функции в данных и возвращает результат.

Примером, основанным на изображении, может быть алгоритм машинного обучения, который вместо классификации по известным меткам разделяет на группы те, члены которых максимально похожи.

Примером, основанным на изображении, может быть алгоритм машинного обучения, который вместо классификации по известным меткам разделяет входные данные на группы, члены которых максимально похожи.

Обучение с подкреплением и трансферное обучение — это еще один тип используемых машинных подходов, но, чтобы не добавлять слишком много шума, я их опускаю.

Ясно понять разницу, потому что на основе этих определений мы построим наше определение простой линейной регрессии.

Регрессия выходит на сцену

Проблемы регрессии

Проблемы регрессии — это проблемы, в которых мы пытаемся сделать прогноз в непрерывном масштабе.

Непрерывные переменные — это числовые переменные, имеющие бесконечное число значений между любыми двумя значениями.

Примерами могут быть предсказание цены акций компании или предсказание температуры завтра на основе исторических данных. Здесь температура или параметры продаж являются непрерывными переменными, и мы пытаемся предсказать изменение стоимости продаж на основе определенных заданных входных переменных, таких как использованные человеко-часы и т. д.

Итак, регрессия…?

Регрессия – это метод понимания взаимосвязи между независимыми переменными или признаками и зависимой переменной или результатом.

Затем можно прогнозировать результаты после оценки взаимосвязи между независимыми и зависимыми переменными.

Регрессия также является областью изучения статистики, которая составляет ключевую часть моделей прогнозирования в машинном обучении. Он используется в качестве подхода к прогнозированию непрерывных результатов в прогностическом моделировании, поэтому он полезен при прогнозировании и предсказании результатов на основе данных. Регрессия машинного обучения обычно включает построение линии наилучшего соответствия точкам данных. Расстояние между каждой точкой и линией сведено к минимуму для достижения наилучшего соответствия линии.

Наряду с классификацией регрессия является одним из основных применений машинного обучения с учителем.

Классификация — это категоризация объектов на основе изученных признаков, тогда как регрессия — это прогнозирование непрерывных результатов. Оба являются задачами прогнозного моделирования.

Машинное обучение с учителем является неотъемлемым подходом в обоих случаях, поскольку модели классификации и регрессии основаны на размеченных входных и выходных обучающих данных. Функции и выходные данные обучающих данных должны быть помечены, чтобы модель могла понять взаимосвязь.

Для чего используются регрессионные модели?

Обычное использование регрессионных моделей машинного обучения включает:

Прогнозирование непрерывных результатов, таких как цены на жилье, цены на акции или продажи.
Прогнозирование успеха будущих розничных продаж или маркетинговых кампаний для обеспечения эффективного использования ресурсов.
Прогнозирование клиентских или пользовательских тенденций, например, в потоковых сервисах или на веб-сайтах электронной коммерции.
Анализ наборов данных для установления взаимосвязей между переменными и выходными данными.
Прогнозирование процентных ставок или цен на акции на основе множества факторов.

Будьте особенно осторожны с данными

Как и в случае любого машинного обучения с учителем, следует уделить особое внимание тому, чтобы размеченные данные обучения были репрезентативными для всей совокупности. Если обучающие данные не являются репрезентативными, прогностическая модель будет соответствовать данным, которые не представляют новые и невидимые данные.

Это приведет (или может) привести к неточным прогнозам после развертывания модели. Поскольку регрессионный анализ включает взаимосвязь характеристик и результатов, следует позаботиться и о правильном выборе функций.

Подведение итогов

Прежде всего, машинное обучение — это ветвь искусственного интеллекта, которая позволяет программному обеспечению учиться на данных и делать прогнозы на основе этих данных. Есть две основные категории машинного обучения: контролируемое и неконтролируемое обучение.

Обучение под наблюдением — это когда программное обеспечение предоставляется с помеченными данными, например, когда вы учитесь распознавать фотографии кошек из набора немаркированных фотографий.
Неконтролируемое обучение — это когда программа получает данные, но не знает, к какой категории они относятся, например, когда вы пытаетесь порекомендовать Netflix что-то посмотреть.

Одним из самых популярных приложений машинного обучения является регрессия. Регрессии — это тип задачи машинного обучения, когда вы пытаетесь выяснить, как одна переменная (переменная-предиктор) влияет на другую переменную (переменную-результат).

Прочитав (и написав в моем случае) эту статью, мы с вами сделали важный первый шаг в изучении машинного обучения, обучения с учителем и без учителя и регрессии. В следующих нескольких статьях мы еще больше углубимся в эти концепции, кульминацией которых станет всестороннее понимание того, как работает машинное обучение.

Итак, вы узнали о важности данных, различных типах алгоритмов обучения и роли регрессии. Я надеюсь, что к концу этой серии мы оба хорошо разберемся в основах машинного обучения и будем готовы начать применять их к нашим реальным проблемам.

Спасибо за чтение! Я надеюсь, что вам понравилось изучение машинного обучения так же, как и мне. Следите за следующими статьями.