Использование регрессии без понимания похоже на вождение машины с закрытыми глазами. - заявила доктор Грейс. Сегодня вы можете обучать и использовать регрессионные модели с помощью 2–3 строк кода. Их правильное использование требует более глубокого понимания. Возможно, вы умеете водить машину. «Если вы не знаете, куда идете, удачи вам в том, что вам нужно», - завершила она свой аргумент.

Уильям сидел в большой комнате в охраняемом помещении. Комната была больше длины, чем ширины. У него была большая круглая металлическая дверь. Уильям чувствовал себя как на подводной лодке в аналитическом крыле. Уильям все еще думал о своих днях в качестве полевого агента. Травма вынудила его взять на себя роль аналитика. Он был хорош в программировании, но ему нужно было больше навыков, чтобы стать хорошим аналитиком. Зная, что ошибка аналитика стала причиной его травмы, он был полон решимости хорошо выполнять свою работу. Он попросил доктора Грейс, звезду аналитического крыла, дать ему некоторые уроки, на которые она с радостью согласилась.

Доктор Грейс продолжила, позвольте мне спросить вас, почему используется регрессионный анализ? Уильям ответил: «Регрессионный анализ предсказывает значение одной переменной (зависимой переменной). На основе значения одной или нескольких известных переменных (независимых переменных) ».

Доктор Грейс улыбнулась и сказала, что вы, кажется, сделали здесь свою домашнюю работу. Она продолжила: «Предположим, вы хотите оценить стоимость дома». Если бы у нас был набор данных, который давал бы цену домов в Калифорнии вместе с количеством спален. Можете ли вы сказать мне, какая переменная является зависимой, а какая независимой? Уильям вытащил свой блокнот и написал:

Уильям сказал: «Я хотел бы знать, можно ли использовать регрессионный анализ со всеми видами данных?» Другими словами, когда регрессионный анализ даст мне хорошие результаты?

Доктор Грейс, глядя на Уильяма, сказала: да, это хороший вопрос. Прежде чем двигаться в направлении регрессии, прежде всего необходимо убедиться, что данные правильные. Для этого есть несколько основных и простых правил. Позвольте мне поделиться таблицей улыбок, которую я подготовил для себя и вытащил.

Доктор Грейс продолжил: Хорошо, мистер Уильям, не могли бы вы рассказать мне, что такое модель регрессии? Уильям с энтузиазмом, да, если у меня есть набор данных, который проходит проверку данных. Я могу построить линию регрессии, как показано ниже. Что предсказывает стоимость дома с учетом количества спален.

Таким образом, используя уравнение прямой линии, мы всегда можем предсказать значение Y с учетом значения X, - заключил Уильям.



Доктор Грейс сказал, что это довольно точно и аккуратно. Не могли бы вы сказать мне, мистер Уильям, сколько линий можно нарисовать в рассмотренном вами примере? Уильям немного подумал и сказал несколько строк. Доктор Грейс причудливо посмотрел на него и сказал, что на самом деле бесконечно. Каждая из этих линий представляет собой потенциальную прогностическую модель. Не могли бы вы нарисовать какие-нибудь линии (модели), которые вы можете придумать. Уильям вытащил листок и нарисовал еще несколько линий.

Доктор Грейс указывает на несколько линий, поэтому, когда существует так много возможностей, как мы можем выбрать ту, которая дает нам наилучшие прогнозы? Уильям быстро ответил, что я знаю эту, мы бы выбрали модель с «наименьшей среднеквадратичной ошибкой», обновив его чертежи.

Уильям продолжил, в большинстве языков программирования есть библиотеки, которые вычисляют наиболее подходящую модель. Нам не нужно беспокоиться об идентификации этого вручную.

Доктор Грейс добавил, что этот метод не ограничивается отдельными независимыми переменными. это эффективно работает также с несколькими независимыми переменными. Рассмотрим этот образец набора данных.

Это имеет несколько измерений или функций, которые называются множественной регрессией. Что можно представить, как показано ниже.

Доктор Грейс продолжила, позвольте мне показать вам еще одну важную технику. Допустим, мы хотели построить модель регрессии, используя набор данных, подобный показанному выше.

Теперь вы видите, что в наборе данных есть и Калифорния, и Небраска, очевидно, что штат влияет на цену. Обратите внимание, что нашему выражению множественной регрессии нужны только числовые значения. Состояние - это строковое значение. Вы можете сказать мне, как поступить с этим мистером Уильямом? Уильям немного подумал и сказал, что мы можем использовать числовые значения, например, CA = 1 и NE = 2.

Доктор Грейс улыбнулся и сказал, что да, это один из его взглядов. С таким решением мы добавим одномерное состояние и предоставим 2 разных значения. Как и в этом случае, это состояние оказывает значительное влияние на цену. Лучше добавить это как новое измерение, поэтому мы кодируем это и создаем набор данных следующим образом.

Уильям оценил эту концепцию. Он сказал, что да, эти практические концепции весьма полезны при работе с регрессией.

Доктор Грейс сказала, поэтому позвольте мне задать вам еще один вопрос, скажем, вы имеете дело с набором данных, как показано ниже.

Итак, сколько функций следует учитывать при нашем регрессионном анализе? Уильям посмотрел на набор данных и сразу ответил на все значения, я бы сначала его закодировал. Доктор Грейс сказала, что это очень очевидное решение. Присмотритесь к нашему набору данных, у нас всегда есть город и штат как одно и то же значение каждый раз, когда они появляются. Другими словами, пара город и штат всегда имеет одно и то же значение в нашем наборе данных, поэтому мы можем удалить одно значение.

Она продолжила, это называется мультиколлинеарностью. Нам не нужны обе переменные для построения нашей регрессионной модели. Итак, мы можем просто выбрать одну переменную, это уменьшит размер и сложность нашей модели. Это также уменьшит смещение.

Она добавила, что факторный анализ выбирает правильные характеристики, которые вызывают эффект. Особенно важно разработать хорошую регрессионную модель. У нас может быть хорошая библиотека, которая может создать модель регрессии. Если наш выбор функций неточный, наша модель не будет очень хорошей.

Уильям переварил то, что он слышал, а затем сказал: у меня к вам вопрос. Доктор Грейс сказал, стреляй прочь. Уильям продолжил, не все наборы данных линейны. Давайте посмотрим на набор данных о силе человека с возрастом, это может выглядеть как знаковая волна.

Уильям продолжил; как линия может дать хороший прогноз для такого рода данных? Доктор Грейс ответила, что это хороший вопрос. В широком смысле мы можем разделить регрессию на линейную и нелинейную. Приведенный вами пример является хорошим кандидатом для нелинейной регрессии. Опорная векторная регрессия и регрессия случайного леса - это некоторые из алгоритмов нелинейной регрессии.

Уильяма удовлетворил ответ. Сказал, а в каких хороших рамках я могу начать изучать регрессию на практике? Д-р Грейс сказала, что позвольте мне перечислить для вас некоторые возможности, приложив диаграмму.

Python

1. Scikit-learn

2. TensorFlow

C#

3. ML. Сеть

Java

4. Java-ML

Лазурь

5. Azure-ML

AWS

6. Машинное обучение AWS

Уильям поблагодарил доктора Грейс и сказал, что я вернусь с дополнительными вопросами. Доктор Грейс сказала, что вам всегда рады.

Получите доступ к экспертному обзору - Подпишитесь на DDI Intel