Регрессия методом наименьших квадратов

Полное математическое руководство.

Регрессия по методу наименьших квадратов - это стандартный метод, с которым должен быть знаком каждый. Мы мотивируем линейную модель с точки зрения теоремы Гаусса-Маркова, проводя различие между переопределенным и недоопределенным случаями. и примените регрессию OLS к набору данных о качестве вина.

СОДЕРЖАНИЕ

  1. Линейная модель
  2. Теорема Гаусса-Маркова
  3. Недоопределенный и сверхдетерминированный случай
  4. Анализ набора данных красных вин
  5. Резюме

Линейная модель

Линейная модель предполагает следующий анзац:

Независимая переменная связана с зависимой переменной посредством умножения и добавления постоянного члена. Другими словами, предсказанная метка представляет собой линейную комбинацию вектора признаков и константы. Однако без ограничения общности мы можем отбросить постоянный член, потому что он может быть включен в линейную комбинацию следующим образом:

Мы расширили эту функцию с помощью фиктивной константы 1 и объединили неизвестные переменные, которые необходимо изучить, в один неизвестный вектор. Теперь, имея полный обучающий набор функций и меток данных, мы можем подобрать данные или узнать оптимальный предиктор и смещение, чтобы лучше всего объяснить данные. Давайте сложим векторы признаков в матрицу по строкам и обозначим неизвестный вектор символом шляпы:

Затем задача оптимизации превращается в следующую обычную задачу наименьших квадратов, которую можно решить, используя методы линейной алгебры и исчисления.

Следовательно, без потери общности, мы можем опустить постоянный член в реализации и формулировке проблемы, если мы дополняем вектор признаков столбцом единиц.

Мы отмечаем, что каждый курс по статистике будет охватывать линейную модель, потому что она легко интерпретируема, недорога в вычислении и, возможно, самое главное, разумная .

Теорема Гаусса-Маркова

Обсуждение обычного метода наименьших квадратов (OLS) было бы неполным без обсуждения теоремы Гаусса-Маркова, которая объясняет оптимальность оценки OLS со статистической точки зрения. Мы изложим это ниже.

Оценщик OLS имеет самую низкую дисперсию выборки в классе линейных несмещенных оценщиков; другими словами, OLS - СИНИЙ (Гаусс-Марков).

СИНИЙ: лучший линейный объективный оценщик с наименьшей дисперсией.

МНК: в обычном смысле наименьших квадратов, это минимизация евклидовой нормы остаточной ошибки.

Отметим, что обсуждение в предыдущем разделе не включало никаких предположений о шумах и случайности. Вместо этого мы использовали приближенный знак равенства в анзаце линейной модели. Действительно, в реальной жизни и в реальных наборах данных равенство не будет точным, будь то из-за ошибки измерения / белого шума или естественных источников ошибка или, что еще хуже, связь между данными и ярлыком изначально не была линейной. Однако, исходя из предположения о линейности, мы расширяем наш анализ для явного моделирования ошибки и смотрим на линейную модель с вероятностной точки зрения.

Математически мы берем анзац линейной модели, как и раньше, и предполагаем, что он искажен шумом. Ниже переменная случайного шума epsilon заменила исходный постоянный член b, который был объединен с линейным членом.

Теперь метка сама по себе является случайной величиной, состоящей из детерминированной части и случайной части. Обратите внимание, что вся случайность происходит от белого шума или эпсилон-члена. В частности, мы предполагаем, что шум имеет нулевое среднее значение и конечную дисперсию:

Нас интересует оценка x hat, решение следующей проблемы, которая сама по себе является случайной величиной, потому что y - случайная величина.

В частности, нас интересует только класс линейных оценок или оценок вида

Для данного оценщика, определяемого коэффициентами c, дисперсия или среднеквадратичная ошибка оценщика определяется выражением.

Несмещенная оценка означает, что

Теорема Гаусса-Маркова просто утверждает, что следующая оценка является несмещенной и имеет наименьшую дисперсию:

Теорема Гаусса-Маркова говорит нам, что при условии, что линейная оценка несмещена, лучшее, что мы можем сделать для минимизации дисперсии, - это оценка, приведенная выше. Простота и оптимальность оценщика OLS фиксируются этим статистическим свойством. Важнейшие предположения - это линейность и беспристрастность. Если мы допустим смещение оценки, то мы можем еще больше уменьшить дисперсию, например через гребневую регрессию, также известную как регуляризация Тихонова. Оценка Джеймса-Стейна устраняет предположение о линейности, а также обеспечивает более низкую дисперсию. Компромисс между систематической ошибкой и дисперсией является важной темой в машинном обучении и статистическом обучении, потому что иногда желательно отказаться от одного из них в пользу другого или наоборот.

Хотя доказательство теоремы Гаусса-Маркова выходит за рамки данной статьи, мы надеемся, что формулировка теоремы была прояснена. Для заинтересованных читателей доказательство можно найти здесь.

Сверхдетерминированный случай (n ›m)

До сих пор мы неявно предполагали, что матрица A имеет полный ранг столбца - или, в частности, что у нее больше строк и столбцов. Мы даже сделали предварительный просмотр решения задачи наименьших квадратов в предыдущем разделе. Здесь мы более подробно комментируем, как решить проблему. У нас есть установка

где матрица признаков, конечно, выше, чем широта: в n-пространстве требуется больше уравнений, чем степеней свободы. Мы также предполагаем, что матрица имеет полный ранг. В этом случае решение нормальных уравнений (полученных путем дифференцирования приведенного выше выражения и приведения производной к нулю) дает решение

где крестик обозначает псевдообратную матрицу Мура-Пенроуза:

Недоопределенный случай (m ›n)

В недоопределенном случае матрица признаков короткая и широкая. В этом случае у нас достаточно степеней свободы, чтобы удовлетворить уравнению! Конечно, с помощью теоремы о ранговой нули мы знаем, что на самом деле существует бесконечно много решений уравнения Ax = y. Поэтому для формулировки задачи как нахождения решения с минимальной нормой:

Эта проблема может выглядеть не связанной с предыдущей, но оказывается, что решение очень похоже! Мы определяем псевдообратную матрицу Мура-Пенроуза аналогичным образом для короткой и толстой матрицы, за исключением замены некоторых терминов:

Согласно этому определению решение проблемы минимальной нормы снова может быть выражено как

Представленное выше решение можно найти, используя ограничивающий аргумент, описанный на этих слайдах.

Анализ реального набора данных

Мы применяем регрессию наименьших квадратов к набору данных о качестве красного вина из репозитория машинного обучения UCI. Задача состоит в том, чтобы предсказать качество вина, используя следующие 11 пояснительных признаков (фиксированная кислотность, летучая кислотность, лимонная кислота, остаточный сахар, хлориды, свободный диоксид серы, общий диоксид серы, плотность, pH, сульфаты, спирт). Мы отображаем некоторые особенности вина в таблице ниже.

Сначала мы решаем задачу линейной регрессии для всех независимых переменных, а затем для одной переменной (плотности) для визуализации. В приведенном ниже коде мы преобразовываем задачу в задачу наименьших квадратов, выполняем тестовое разделение на 80–20 поездов, а затем решаем для предсказателя, используя приведенные выше уравнения.

Среднеквадратичная ошибка (MSE) составляет 0,4068. Используя одну функцию (плотность), мы можем фактически получить MSE 0,7206, что является конкурентоспособным при использовании всех функций. Как видно на рисунке ниже, плотность отрицательно коррелирует с качеством вина. Оранжевая линия показывает лучший линейный несмещенный предиктор (СИНИЙ), который мы решили использовать для использования инверсии Мура-Пенроуза матрицы признаков.

Резюме

Регрессия методом наименьших квадратов необходима для подбора данных и должна быть в инструментарии каждого специалиста по данным. Это не только элементарная модель, но и элегантная и разумная, поскольку она мотивирована соображениями минимизации дисперсии (теорема Гаусса-Маркова). В этой статье мы показали, как решить переопределенные и недоопределенные задачи наименьших квадратов и применили линейную регрессию наименьших квадратов к набору данных красных вин. Обратное выражение Мура-Пенроуза и решение проблемы регрессии МНК можно реализовать в несколько строк на вашем любимом языке сценариев. Хотя мы не вдавались в подробности компромисса смещения и дисперсии, это интересная тема, о которой стоит узнать больше, если вам понравилась эта статья. Вкратце: можно дополнительно уменьшить дисперсию оценки в обмен на дополнительную систематическую ошибку с помощью регуляризации. Я настоятельно рекомендую вам продолжить чтение ниже!

Ссылки