О чем следует позаботиться

Регрессия - это метод прогнозирования целевой переменной y, которая обладает наилучшей линейной зависимостью между заданными независимыми и зависимыми значениями. Основная цель регрессии - проверить взаимосвязь между входным признаком x и целевым значением y, а затем вывести непрерывные выходные данные для неизвестного значения, заданного как вход.

Простая линейная регрессия использует одну независимую переменную для прогнозирования зависимой переменной путем подбора наилучшей линейной зависимости.

Уравнение линейной регрессии: y = bo + bi * x

Здесь ‘y’ - зависимая переменная. Термин «бо» является постоянным. Термин ‘bi’ - это коэффициент при x и, наконец, x - независимое значение.

Перед построением модели мы должны проанализировать данные. Для этого мы должны проверить наличие каких-либо выбросов, а также увидеть корреляцию между зависимыми и независимыми данными.

Процесс изучения данных, проверки наличия выбросов, а также поиска корреляции между входным значением и целевыми значениями. Все эти процессы относятся к EDA, то есть исследовательскому анализу данных. Чтобы определить наличие выбросов в наших данных, мы должны идентифицировать их, используя коробчатую диаграмму или гистограмму, или и то, и другое. Он показывает, как распределяются данные. Это помогает нам определить, есть ли в распределении данных какие-либо выбросы или нет. Если присутствуют какие-либо выбросы, с ними нужно работать отдельно. Некоторые методы устранения выбросов состоят в том, чтобы удалить это конкретное наблюдение или попытаться преобразовать значения. Мы можем выполнить вменение, или его нужно рассматривать отдельно в статистической модели, чтобы избавиться от выбросов.

Если нет выбросов, мы должны увидеть корреляцию между данными. Чтобы увидеть корреляцию, мы в основном обращаемся за помощью к диаграмме рассеяния. Это помогает определить в основном три вещи: линейность, направление и силу зависимых и независимых значений данных. Если переменные на диаграмме рассеяния имеют более высокое рассеяние (меньшую линейность), нет определенного направления для распределения данных (направления), и если данные распределены таким образом, что они упакованы слабо, то говорят, что они имеют слабую корреляция. Если переменные распределены в линейно положительном направлении и плотно упакованы, тогда у них будет сильная корреляция, так что мы можем спроектировать прямую линию, которая могла бы точно определять точки данных. Корреляция считается сильной, если значение коэффициента корреляции (r) больше 0,85.

После этого пора разделить данные на тестовый набор и обучающий набор. Как только это будет сделано, мы сможем построить модель, используя обучающий набор, который может хорошо объяснить данные. А затем мы могли ввести тестовые данные в ту же самую модель, которую мы построили для получения прогнозов. При построении модели необходимо позаботиться о нескольких вещах: значение R² (коэффициент детерминации), p-значение (вероятность) и значение RMSE (среднеквадратичная ошибка). R² представляет собой процент отклонения вывода, который можно объяснить входными переменными. Это значение всегда должно быть высоким. Чем выше значение R², тем лучше модель соответствует данным. Значение p или значение вероятности всегда должно быть меньше. Оно должно быть меньше или равно 0,5. Чем меньше значение p, тем лучше результат. Значение RMSE всегда должно быть ниже. Он дает сумму отклонения фактического значения от предсказанного значения, что означает ошибку. Так что лучше иметь модель с наименьшим количеством ошибок.

Прогнозирование и доверительный интервал - следующий важный термин, который необходимо обсудить. Это два типа интервалов, используемых для прогнозирования в регрессионных и других линейных моделях. Интервал прогнозирования представляет собой диапазон, в который может выпасть одно наблюдение, в зависимости от заданных параметров предикторов. В этом случае мы не можем однозначно сказать, что прогноз будет в заданном диапазоне. Доверительный интервал предикторов представляет собой диапазон, в котором средние ответы, вероятно, попадут в заданные параметры предикторов. Здесь мы могли бы строго указать пределы интервала, то есть верхний предел и нижний предел. Прогнозируемое значение определенно принадлежит указанному диапазону, оно не будет потеряно. Следовательно, интервалы прогнозирования всегда будут шире, чем доверительный интервал. Это потому, что есть дополнительная неопределенность, связанная с предсказанием единственного ответа по сравнению со средним ответом.

Этим мы охватили все, что связано с простой линейной регрессией. Код для реализации простой линейной регрессии вместе с объяснением и набором данных приводится здесь. Просто взгляните на это и поймите, как это работает. Удачного обучения !!!!!