Методы моделирования машинного обучения

Что такое регрессия?

Регрессия — это прогностическое моделирование, используемое для прогнозирования числового значения, которое анализирует взаимосвязь между целевой или зависимой переменной и независимой переменной в наборе данных. В статистическом моделировании регрессионный анализ представляет собой набор статистических процессов для оценки отношений между зависимой переменной и одной или несколькими независимыми переменными. Основной метод решения проблем регрессии в машинном обучении с использованием моделирования данных. Он включает в себя определение линии наилучшего соответствия, которая представляет собой линию, проходящую через все точки данных, где расстояние линии от каждой точки данных уменьшается.

Существует 6 типов регрессии:

  1. Линейная регрессия

Линейная регрессия — один из самых основных типов регрессии в машинном обучении. Модель сингулярной линейной регрессии состоит из предикторной переменной/или признака и зависимой переменной, линейно связанных друг с другом. Если имеется несколько предикторов или признаков, это называется моделью множественной линейной регрессии. В этой модели регрессии существует гомоскедастичность, что означает, что ошибка не зависит от размера независимых переменных. Ошибка существенно не увеличивается, если переменные становятся больше или меньше.

2. Логистическая регрессия

Логистическая регрессия — это тип модели регрессии, который используется, когда зависимая переменная является дискретной, и предсказывает двоичную переменную. В статистике эта модель используется, чтобы показать вероятность существования определенного класса или события. Примеры: 0 или 1, истина или ложь, да или нет, неудачно или успешно, мертво или живо и т. д. Это означает, что целевая переменная может иметь только два значения.

3. Полиномиальная регрессия

Полиномиальная регрессия — это еще одна модель машинного обучения, которая почти такая же, как множественная линейная регрессия. В полиномиальной регрессии связь между независимыми и зависимыми переменными, то есть X (переменные-предикторы) и y (целевая переменная), обозначается n-й степенью.

4. Ридж-регрессия

Модель гребневой регрессии в машинном обучении обычно используется, когда существует высокая корреляция между X (переменными-предикторами). Это метод регрессии, при котором модель менее подвержена переобучению. Это связано с тем, что в случае мультиколлинеарности оценки методом наименьших квадратов дают несмещенные значения. Когда коллинеарность очень высока, может быть большое смещение. Следовательно, матрица смещения вводится в уравнение с помощью этой модели.

5. Лассо-регрессия

Лассо-регрессия — это модель машинного обучения, которая выполняет регуляризацию вместе с выбором признаков или X (переменные-предикторы). Лассо означает оператор выбора наименьшей абсолютной усадки. Он использует только необходимые функции, а остальные обнуляются. Он назначает штраф, который минимизирует значение коэффициента, приближая его к нулю. Это помогает избежать переоснащения модели.

6. Регрессия ElasticNet

ElasticNet Regression сочетает в себе характеристики моделей Lasso и Ridge. Эта модель уменьшает влияние различных функций, не исключая при этом все функции. Он сочетает в себе устранение признаков из Lasso и уменьшение коэффициентов признаков из модели Ridge для улучшения предсказания модели.

7. k-NN

k-NN Regression — это модель машинного обучения, которая аппроксимирует связь между независимыми переменными и непрерывным результатом путем усреднения наблюдений в одном и том же k (окрестности). Размер k можно установить или отрегулировать с помощью перекрестной проверки, чтобы выбрать размер, который минимизирует среднеквадратичную ошибку.