Введение в алгоритмы регрессии машинного обучения

Очевидные вопросы, которые следует задать при столкновении с широким спектром алгоритмов машинного обучения: «Какой алгоритм лучше подходит для конкретной задачи и какой из них мне следует использовать?»

Ответы на эти вопросы зависят от нескольких факторов, включая: (1) размер, качество и характер данных; (2) доступное вычислительное время; (3) Актуальность задачи; и (4) Что вы хотите делать с данными.

Это один из многих алгоритмов, о которых я писал в предыдущей статье.
В этой части я попытался максимально просто отобразить и кратко объяснить основные алгоритмы (хотя и не все), доступные для задач регрессии.

Алгоритмы регрессии:

Регрессионный анализ - это метод прогнозного моделирования, который исследует взаимосвязь между зависимой (целевой) и независимой (ыми) переменными (предиктором). Его можно использовать для моделирования временных рядов, прогнозирования и нахождения причинно-следственной связи между переменными. Например, вы можете использовать его, чтобы найти взаимосвязь между поспешным вождением и количеством дорожно-транспортных происшествий с участием водителя.

У регрессионного анализа есть несколько преимуществ:

Это говорит нам о значимых отношениях между зависимой переменной и независимой переменной.

Он говорит нам о силе воздействия нескольких независимых переменных на зависимую переменную. Когда я говорю несколько независимых переменных, я имею в виду несколько X, например, в «Влияние временной задержки и ориентации на тактильное распознавание объектов» у нас есть временная задержка и ориентация как X, а распознавание объекта - как Y.

· Обычная регрессия наименьших квадратов (OLSR)
Метод линейной регрессии для оценки неизвестных параметров путем создания модели, которая минимизирует сумму квадратов ошибок между наблюдаемыми данными и прогнозируемыми. (наблюдаемые значения и оценочные значения).
По сути, метод вычисления коэффициентов (β) каждого Xi:

Коэффициенты β находятся путем минимизации ошибок, отсюда и название «регрессия по методу наименьших квадратов». Отклонения сначала возводятся в квадрат при добавлении, так что компенсации между положительными и отрицательными значениями не будет.

OLSR имеет некоторые ограничения: избыточная информация / линейная связь между двумя независимыми переменными (также известная как коллинеарность) может привести к неправильной интерпретации коэффициента, поэтому нам нужно больше наблюдений, чем переменных x. Чтобы преодолеть это, вы можете использовать PCR (регрессия основных компонентов).

· Линейная регрессия
Используется для оценки реальных значений (стоимость домов, количество звонков, общий объем продаж и т. Д.) На основе непрерывной переменной.

Некоторые моменты, которые следует учитывать:

Между независимыми и зависимыми переменными должна быть линейная зависимость.

Множественная регрессия страдает мультиколлинеарностью (мультиколлинеарность в модели множественной регрессии - это сильно линейно связанные ассоциации между двумя или более независимыми переменными).

Линейная регрессия очень чувствительна к выбросам.

Линейная регрессия - это параметрическая регрессия. Это означает, что предполагается, что характер отношений между зависимыми и независимыми переменными известен (например, является линейным).

Вы можете оценить производительность модели, используя показатель R-квадрат (R2) - процент вариации переменной отклика, который объясняется линейной моделью.

· Логистическая регрессия
Используется для оценки дискретных значений (двоичных значений, таких как 0/1, да / нет, истина / ложь) на основе заданного набора независимых переменных.

Некоторые моменты, которые следует учитывать:

Он используется для задач классификации.

Не требуется линейной зависимости между зависимыми и независимыми переменными.

· Пошаговая регрессия
Используется, когда мы имеем дело с несколькими независимыми переменными. Он добавляет элементы в вашу модель одну за другой, пока не найдет оптимальную оценку для вашего набора функций. Пошаговый выбор чередуется между прямым и обратным, вводя и удаляя переменные, которые соответствуют критериям для ввода или удаления, до тех пор, пока не будет достигнут стабильный набор переменных.

Некоторые моменты, которые следует учитывать:

Он использует статистические значения, такие как R-квадрат, t-статистика и метрика AIC, для распознавания значимых переменных.

· Сплайны с многомерной адаптивной регрессией (MARS)

Гибкое регрессионное моделирование многомерных данных, которое ищет взаимодействия и нелинейные отношения, которые помогают максимизировать точность прогнозов.

Эти алгоритмы по своей сути нелинейны (это означает, что вам не нужно адаптировать модель к нелинейным шаблонам в данных, вручную добавляя элементы модели (элементы в квадрате, эффекты взаимодействия)). MARS - это непараметрическая регрессия - она ​​не делает никаких предположений относительно того, как зависимые переменные связаны с предикторами. Вместо этого он позволяет «управлять» функцией регрессии непосредственно из данных. MARS строит отношения между зависимыми и независимыми переменными из набора коэффициентов и так называемых базисных функций (предикторов), которые полностью определяются на основе данных регрессии.

Некоторые моменты, которые следует учитывать:

MARS довольно популярен в области интеллектуального анализа данных, потому что он не предполагает какого-либо конкретного типа или класса отношений (например, линейных, логистических и т. Д.) Между переменными-предикторами и интересующей зависимой (результат) переменной.

MARS может быть полезен, если вы сталкиваетесь со сложными нелинейными отношениями между предсказателем и целью, особенно в высоком измерении.

В MARS можно использовать как непрерывные, так и категориальные предикторы. Однако базовый алгоритм MARS предполагает, что переменные-предикторы являются непрерывными по своей природе.

Поскольку MARS может обрабатывать несколько зависимых переменных, этот алгоритм легко применить и к задачам классификации.

MARS имеет тенденцию переоценивать данные. Чтобы преодолеть эту проблему, MARS использует технику сокращения (аналогичную сокращению в деревьях классификации), чтобы ограничить сложность модели за счет уменьшения количества ее базовых функций. Выбор и сокращение базисных функций делает этот метод очень мощным инструментом для выбора предикторов. По сути, алгоритм выбирает только те базисные функции (и те переменные-предикторы), которые вносят «значительный» вклад в прогноз.

MARS особенно полезен в ситуациях, когда также подходят модели дерева регрессии, т. Е. Когда иерархически организованное последовательное разбиение переменных-предикторов дает точные прогнозы.

Вы должны рассматривать MARS как обобщение деревьев регрессии, где «жесткие» двоичные разбиения заменяются «гладкими» базисными функциями, вместо того, чтобы рассматривать его как обобщение множественной регрессии.

· Сглаживание локально оцененной диаграммы рассеяния (LOESS)
Метод подбора гладкой кривой между двумя переменными или подбора гладкой поверхности между результатом и до четырех переменных-предикторов. По сути, это инструмент, используемый в регрессионном анализе, который создает плавную линию через диаграмму рассеяния, чтобы помочь вам увидеть взаимосвязь между переменными и предвидеть тенденции. Идея состоит в том, что если ваши данные не распределены линейно, вы все равно можете применить идею регрессии. Вы можете применить регрессию, и она называется локально взвешенной регрессией. Вы можете применить LOESS, когда отношения между независимыми и зависимыми переменными нелинейны. Сегодня большинство алгоритмов (например, классическая нейронная сеть с прямой связью, опорные векторные машины, алгоритмы ближайшего соседа и т. Д.) Представляют собой глобальные обучающие системы, в которых они используются для минимизации глобальных функций потерь (например, квадратичной ошибки суммы). В отличие от них, локальные системы обучения разделят глобальную проблему обучения на несколько более мелких / простых задач обучения. Обычно это достигается путем разделения функции затрат на несколько независимых локальных функций затрат. Одним из недостатков глобальных методов является то, что иногда никакие значения параметров не могут обеспечить достаточно хорошее приближение. Но затем идет LOESS - альтернатива приближению глобальной функции.

Некоторые моменты, которые следует учитывать:

LOESS обычно используется для подгонки линии к диаграмме рассеяния, где зашумленные значения данных, разреженные точки данных или слабые взаимосвязи мешают вашей способности увидеть лучшую линию.

Итак, как мне выбрать, какой из них использовать?

Изучение данных должно быть вашим первым шагом перед тем, как выбрать правильную модель (определить взаимосвязь и влияние переменных).

Чтобы сравнить, насколько хороша модель, вы можете использовать различные показатели, такие как статистическая значимость параметров, R-квадрат, скорректированный r-квадрат, AIC, BIC и член ошибки.

Перекрестная проверка - лучший способ оценить модели, используемые для прогнозирования: разделите данные на обучение и проверку. Простая среднеквадратическая разница между наблюдаемыми и прогнозируемыми значениями дает вам меру точности прогноза.

Также имейте в виду, что методы регуляризации, такие как Lasso, Ridge и Elastic Net (продолжайте читать), хорошо работают в случае высокой размерности и мультиколлинеарности между переменными в данных.

До скорого,

Bobcat.