Регрессия — важный инструмент для специалистов по данным. Это позволяет нам моделировать и прогнозировать многие аспекты наших данных. При выполнении регрессии мы берем выборку данных и подгоняем линию к выборке данных. Эта линия может очень хорошо соответствовать образцу, но не всегда соответствует всему набору данных. Мы можем преодолеть некоторые из этих проблем, используя методы регуляризации гребня или лассо с нашей моделью регрессии. В этой статье я кратко расскажу вам о регрессии и методах регуляризации гребня и лассо и покажу, как они работают.

Обычная регрессия методом наименьших квадратов

В обычной регрессии методом наименьших квадратов вы начинаете с поиска средних значений двух функций, для которых вы строите график, и нахождения линии наилучшего соответствия (Lee, 2021). Затем вы рисуете линию, проходящую через точку пересечения этих двух средних значений (Lee, 2021). Затем вы измеряете расстояние по вертикали или оси Y между каждой из точек данных и линией, возводите их в квадрат и складываете их все вместе. Функция стоимости выглядит следующим образом (Джеймс, 2013 г.), (Бишоп, 2006 г.), (Стармер, 24 сентября 2018 г.):

В этом уравнении «d» — это вектор различий между линией регрессии и фактическими точками данных, а «i» — индекс каждого различия. Сложение всех разностей вместе дает сумму квадратов ошибок для одной строки, но вам нужно найти наименьшую сумму квадратов ошибок. Для этого вам нужно повторять этот процесс снова и снова, слегка изменяя наклон линии до тех пор, пока сумма квадратов, которая когда-то снижалась, теперь будет расти, и вы нашли минимальную сумму квадратов ошибок. Хотя это занимает много времени вручную, компьютеры могут выполнить задачу за миллисекунды. Эта линия лучше всего подходит для ваших данных в соответствии с обычной регрессией наименьших квадратов.





Ридж-регрессия

Чтобы обычный метод наименьших квадратов работал, нам нужно иметь как минимум столько точек данных, сколько объектов в наборе данных. Однако иногда у нас может быть много параметров, которые могут помочь нам предсказать определенные результаты, и в то же время у нас может не быть много точек данных для сравнения наших данных. Примером этого может быть попытка предсказать расход бензина в автомобилях, когда у вас есть данные только по 100 различным автомобилям, но у вас есть информация о 400 различных настройках двигателя и карбюратора для каждого автомобиля. В этом случае на помощь может прийти гребневая регрессия. Гребневая регрессия минимизирует некоторые параметры модели, чтобы можно было определить оптимальное соответствие. В этом видео более подробно рассказывается об основных преимуществах гребневой регрессии.

В гребневой регрессии мы начинаем с той же обычной функции стоимости наименьших квадратов, что и выше, но добавляем штраф за регуляризацию L2, чтобы получить эту новую функцию стоимости (James, 2013), (Bishop, 2006):

Где «d» — это вектор различий между линией регрессии и фактическими точками данных, а «i» — это индекс каждой разницы, как в приведенной выше обычной функции стоимости методом наименьших квадратов, и где лямбда — это фактор, определяющий влияние фактор регуляризации, а w — наклон линии регрессии. Когда лямбда равна нулю, весь член регуляризации также становится равным нулю, и мы остаемся с исходной регрессией наименьших квадратов. По мере роста лямбда штраф, умноженный на лямбда, поднимает линию величины регрессии хребта при ее построении в зависимости от наклона. Все эти умножения вместе приводят к оптимальной линии регрессии, которая имеет наклон, близкий к нулю, и которая имеет самую низкую стоимость регрессии гребня. Это означает, что метод гребенчатой ​​регрессии приводит к модели, которая имеет меньшую чувствительность к некоторым функциям в рамках регрессионного анализа. Дополнительные сведения о гребневой регрессии см. в следующих статьях и в видео выше (Starmer, 24 сентября 2018 г.).





Лассо-регрессия

Более низкая чувствительность к определенным функциям, достигнутая нами при гребневой регрессии, может быть хороша в некоторых случаях, но в других случаях мы можем захотеть исключить все функции вместе, что является задачей регрессии Лассо. Лассо-регрессия очень похожа на гребневую регрессию. Основное отличие состоит в том, что в лассо-регрессии мы берем абсолютное значение наклона, а не квадрат наклона, как мы делали в гребневой регрессии выше, и это позволяет уменьшить штраф для определенных элементов регрессии до ноль и устранить функции, которые плохо предсказывают результат.

Обычно лучшими приложениями для лассо-регрессии являются те, в которых мало записей, но много функций. Лассо-регрессия может устранить влияние признаков, которые не являются хорошими предикторами, и сохранить те, которые таковыми являются. Примером могут служить некоторые медицинские записи, в которых у вас всего несколько пациентов, но есть тысячи сведений о каждом пациенте, таких как возраст, вес, кровяное давление, диета и т. вы хотите предсказать, а остальные бесполезны.

Вот функция стоимости для регрессии лассо (Джеймс, 2013), (Бишоп, 2006):

Где «d» — вектор различий между линией регрессии и фактическими точками данных, «i» — индекс каждой точки данных, лямбда — фактор, определяющий влияние фактора регуляризации и w — наклон линии регрессии, как и в гребневой регрессии выше. Опять же, здесь мы берем абсолютное значение регрессии, что позволяет нам снизить чувствительность к некоторым функциям в наборе данных до нуля, исключая их влияние на регрессию. Таким образом, регуляризация лассо лучше, чем регуляризация гребня, если у вас есть функции, которые бесполезны для предсказания того, что вы хотите предсказать, в то время как регуляризация гребня лучше, если большинство функций полезно в модели (Starmer, 1 октября 2018 г.). Чтобы узнать больше о регрессии Лассо, вот несколько интересных статей и видео:







Выбор Lambda с перекрестной проверкой

Выбор лямбды может быть сложным. Вы должны использовать перекрестную проверку, чтобы убедиться, что вы получаете правильное соответствие данным. При перекрестной проверке вы разделяете данные на несколько разных обучающих и тестовых наборов. Вы запускаете регрессионную модель на обучающем наборе, а затем тестируете ее на соответствующем тестовом наборе. Повторив этот процесс несколько раз, вы сможете разработать модель, которая работает лучше всего. Вместе они помогают выбрать лучшую лямбду. Чтобы узнать больше о выборе лямбда с перекрестной проверкой, ознакомьтесь со следующими статьями и видео о гребневой регрессии выше:







Заключение

Методы регуляризации гребня и лассо могут помочь в анализе больших сложных наборов данных. Каждый из них имеет много преимуществ и недостатков, которые следует тщательно взвесить при выборе наилучших методов для использования. Используя эти методы, вы можете поднять свои навыки анализа данных на новый уровень и открыть для себя много новых и интересных идей о ваших данных.

Надеюсь, вам понравилась эта статья. Пожалуйста, подумайте о том, чтобы следовать за мной.

Библиография

Стармер, Джошуа. Регуляризация Часть 1 Ридж (L2) Регрессия. https://www.youtube.com/watch?v=Q81RR3yKn30&t=615s. опубликовано 24 сентября 2018 г.

Стармер, Джошуа. Регуляризация, часть 2: регрессия лассо (L1). https://www.youtube.com/watch?v=NGf0voTMlcs&t=287s. опубликовано 1 октября 2018 г.

Ли, Эндрю. Вычисление линии регрессии методом наименьших квадратов: уравнение, пример, объяснение. Технология Сети Информатика. https://www.technologynetworks.com/informatics/articles/calculating-a-least-squares-regression-line-equation-example-explanation-310265, 23 ноября 2021 г.

Бишоп, Кристофер. Распознавание образов и машинное обучение. ООО «Спрингер Сайенс энд Бизнес Медиа». Нью-Йорк. 2006.

Гарет, Джеймс; Уиттен, Даниэла; Хасти, Тревор; и Тибширани, Роберт. Введение в статистическое обучение с приложениями в R. Springer Science and Business Media LLC. Нью-Йорк. 2013.