ML19: «Линейный» в линейной регрессии

Представляет ли это «линейное» линейную функцию или линейную карту?

Ключевые слова: линейная регрессия, линейная функция, исчисление, линейная карта, линейное преобразование, линейная алгебра.

Линейная регрессия с терминами более высокой степени (степень›1), терминами взаимодействия, регуляризацией и пошаговым процессом является дешевой, экономящей время, интерпретируемой и довольно эффективной. Это отличная отправная точка и базовая модель для всех проектов ML/DS.

План
(1) Введение
(2) Ключевые данные
(3) Ответ: линейная карта
( 4) Линейная регрессия: дешевая, экономящая время и производительная модель
(5) Книги о непонимании «линейного в линейной регрессии»
(6) Заключение
(7) Ссылки

(1. Введение

1. Линейная функция

Концепция в Исчислении.
Ссылаясь на многочлен степени 1 или 0, например, y = ax + b.
Обратите внимание, что в некоторых контекстах линейная карта также называется линейной функцией [1], хотя на самом деле это редкость.

2. Линейная карта

Концепция в линейной алгебре.
линейная карта (также называемая линейной картой, линейным преобразованием или, в некоторых случаях, линейной функцией) — это отображение V → W между двумя модулями (например, двумя векторными пространствами), сохраняющее операции сложения и скалярного умножения. Если линейная карта является биекцией, она называется линейным изоморфизмом. [1]
Мы видим из рисунка 1, что «линейное» имеет двойное значение в математике. Тогда что означает «линейный» в линейной регрессии?

(2) Критические данные

Давайте посмотрим на знаменитый учебник для выпускников факультетов статистики по всему миру —Прикладная линейная регрессия(4-е изд.) [3]— для отвечать. Обидно, что даже этот учебник не дает явного объяснения того, является ли «линейное» в линейной регрессии линейной функцией или линейной картой; тем не менее, мы могли бы найти некоторые подсказки в учебнике.

1. Доказательство №1

В оглавлении глава 2 называется «Простая линейная регрессия».

2. Доказательство №2

Здесь мы видим, что «множественная регрессия» на самом деле является «множественной линейной регрессией». Обратите внимание, что в исчислении нет такого термина, как «множественная линейная функция».

3. Доказательство №3

Описание здесь точно такое же, как у линейной карты.

(3) Ответ: линейная карта

Следовательно, мы приходим к ответу, что «линейное» в линейной регрессии — это именно линейная карта в линейной алгебре!

Кроме того, линейная регрессия имеет две ветви — простую линейную регрессию и множественную линейную регрессию.

(4) Линейная регрессия: дешевая, экономящая время и производительная модель

1. Линейная регрессия с терминами более высокой степени (степень›1) и терминами взаимодействия

Довольно много книг и статей по ML/DS в Интернете неправильно понимают линейную регрессию и принимают ее за прямую линию, т. е. полином степени 1 или 0; поэтому они упускают возможности линейной регрессии.

На самом деле, линейная регрессия может иметь члены более высокой степени (степень›1) и условия взаимодействия, которые помогают подобрать данные более точно, чем простая прямая линия.

2. Дешевый, экономящий время, интерпретируемый и довольно производительный

Линейная регрессия с терминами более высокой степени (степень>1) и условиями взаимодействия — это дешевая, экономящая время, интерпретируемая и довольно производительная модель. Линейная регрессия — это самая базовая и лучшая модель для начала работы над проектом ML/DS.

3. Отправная точка и базовая модель

Взяв за отправную точку линейную регрессию, мы можем обнаружить характеристики данных и выбрать важные функции, прежде чем создавать более сложные модели (например, SVM, RF, XGBT, ANN, CNN, RNN), которые может стоить гораздо больше, чем линейная регрессия.

Кроме того, мы можем взять эту сложную модель линейной регрессии выше в качестве базовой модели для оценки производительности каждой сложной модели (например, SVM, RF, XGBT, ANN, CNN, RNN). В конце концов, согласно бритве Оккама (закону экономии), зачем использовать сложные и трудоемкие модели с точностью, близкой к ванильной модели — линейной регрессии?

Кроме того, использование регуляризации (лассо, гребень, эластичная сеть) может помочь нам смягчить переоснащение линейной регрессии и получить лучшую модель линейной регрессии.

(5) Книги о непонимании «линейного» в линейной регрессии

Жаль, что в большинстве книг и статей по ML/DS в Интернете обсуждается только простая линейная регрессия. Среди них есть несколько книг, «явно» неправильно понимающих линейную регрессию (я очень подозреваю, что многие авторы просто считают линейную регрессию прямой линией, но у меня недостаточно доказательств), и их описания следующие:

1. Kane, F. (2017). Hands-on Data Science and Python Machine Learning. Birmingham, UK: Packt Publishing.
"All it (linear regression) is, is fitting a straight line to a set of data points."
2. Joshi, P. (2016). Python Machine Learning Cookbook. Birmingham, UK: Packt Publishing.
"You might say that there might be a curvy line out there that fits these points better, but linear regression doesn't allow this."

С другой стороны, есть книги, которые «явно» реализуют истинную силу линейной регрессии, упоминая члены более высокой степени (степень>1) или условия взаимодействия в линейной регрессии:

1. Albon, C. (2018). Machine Learning with Python Cookbook: Practical Solutions from Preprocessing to Deep Learning. California, CA: O’Reilly Media.
2. VanderPlas, J. (2017). Python Data Science Handbook: Essential Tools for Working with Data. California, CA: O’Reilly Media.
3. Hackeling, G. (2017). Mastering Machine Learning with scikit-learn (2nd ed.).  Birmingham, UK: Packt Publishing.

(6. Заключение

Термин «линейный» в линейной регрессии относится к линейной картевлинейной алгебре, а не к линейной функции (многочлен степени 1 или 0) в разделе Исчисление.
Линейная регрессия с терминами более высокой степени (степень›1), интерактивными терминами, регуляризацией и пошаговым процессом определенно превосходит линейную регрессию, такую как z = топор + by + c.
Линейная регрессия с терминами более высокой степени (степень›1), терминами взаимодействия, регуляризацией и пошаговым процессом является дешевой, экономящей время, интерпретируемой и довольно эффективной. Это отличная отправная точка для всех проектов ML/DS для обнаружения характеристик данных и выбора важнейших функций перед созданием более сложных моделей (например, SVM, RF, XGBT). , ИНС, CNN, RNN).
Кроме того, мы можем взять эту сложную модель линейной регрессии выше в качестве базовой модели для оценки производительности каждой сложной модели (например, SVM, RF, XGBT, ANN, CNN, РНН). Так называемая базовая модель не должна быть похожа на z = ax + by + c или y = ax + b, что слишком банально.
Читатель может проверить ML20 и ML21 для практической реализации линейной регрессии с использованием R и Python соответственно.

ML21: линейная регрессия с Python
с терминами и взаимодействиями более высокого уровняmedium.com

ML20: пошаговая линейная регрессия с R
с терминами и взаимодействиями более высокого уровняmedium.com

(7) Ссылки

[1] Википедия (неизвестно). Линейная карта. Получено с https://en.wikipedia.org/wiki/Linear_map

[2] Википедия (неизвестно). Линейная функция. Получено с https://en.wikipedia.org/wiki/Linear_function

[3] Вайсберг, С. (2014). Прикладная линейная регрессия (4-е изд.). Нью-Джерси, Нью-Джерси: John Wiley & Sons.

[4] Албон, К. (2018). Машинное обучение с помощью Python Cookbook: практические решения от предварительной обработки до глубокого обучения. Калифорния, Калифорния: O’Reilly Media.

[5] ВандерПлас, Дж. (2017). Справочник Python по науке о данных: основные инструменты для работы с данными. Калифорния, Калифорния: O’Reilly Media.

[6] Хакелинг, Г. (2017). Освоение машинного обучения с помощью scikit-learn (2-е изд.). Бирмингем, Великобритания: Packt Publishing.

[7] Кейн, Ф. (2017). Практические занятия по науке о данных и машинному обучению Python. Бирмингем, Великобритания: Packt Publishing.

[8] Джоши, П. (2016). Поваренная книга машинного обучения Python. Бирмингем, Великобритания: Packt Publishing.