Что такое подгонка данных?

→ Процесс построения ряда точек данных и рисования линии наилучшего соответствия для понимания взаимосвязи между переменными называется подбором данных.

Теперь вопрос в том, какая линия подходит лучше всего?

Разберемся глубже. Первый,

Понимать линейную зависимость ?

→ Линия, используемая для представления отношения, представляет собой прямую линию, которая проходит через точки данных, а переменные имеют линейную связь.

Линейная регрессия.Линейная регрессия пытается найти линию, которая лучше всего соответствует точке данных, и дает линейную связь между двумя переменными.

Сценарий использования: –

Рассмотрим пример: допустим, мы хотим найти взаимосвязь между температурой на улице и продажами мороженого.

  • Предположим, у нас есть две строки L1 и L2, которые претендуют на описание отношений между переменными.

Сначала найдите все квадраты расстояния между линией L1 и каждой точкой данных, сложите их все и найдите среднее расстояние.

этот способ вычисления квадрата расстояния, их сложения, а затем получения среднего называется функцией среднеквадратичной ошибки или потери.

пример: - Среднеквадратическая ошибка - (2500 + 400 + 400 + 400 + 900 + 400 + 1600 + 2500 + 400 + 300 + 350) / 11 = 1127,27

если мы посчитаем для L2, после расчета мы увидим обе линии, и, проанализировав результаты, мы обнаружили, что функция потерь или среднеквадратическая ошибка меньше для L1, чем для L2.

мы можем видеть, что среднеквадратическая ошибка меньше для L1, чем для L2.

Следовательно, L1 является наиболее подходящей строкой.

Теперь мы рассмотрим смещение и дисперсию.

Смещение → Смещение возникает, когда алгоритм имеет ограниченную гибкость для обучения на основе данных. Такие модели уделяют очень мало внимания обучающим данным и чрезмерно упрощают модель, поэтому ошибка проверки или ошибка прогнозирования и ошибка обучения следуют аналогичным тенденциям.

Дисперсия → Дисперсия определяет чувствительность алгоритма к определенным наборам данных. Модель с высокой дисперсией уделяет большое внимание обучающим данным и не обобщает, поэтому ошибка проверки или ошибка прогнозирования далеки от каждой из них.

Пример: - Смещение → В этой игре, если все стрелки падают на определенный указатель, это можно рассматривать как «смещенный бросок», и игрок целится в конкретный балл.

Дисперсия → Если все стрелки попадают на разные указатели и никакие две стрелки не попадают на одни и те же указатели, то это можно рассматривать как «Вариантный бросок», и игрок стремится к различным баллам.

Теперь поговорим о Переоснащении?

→ Сценарий, в котором модель машинного обучения пытается изучить детали вместе с шумом в данных и пытается подогнать каждую точку данных на кривой. так ,

Поскольку модель обладает очень меньшей гибкостью, она не может предсказать новые точки данных, и поэтому модель отклоняет каждую новую точку данных во время прогнозирования.

причины:-

Данные, используемые для обучения, не очищаются и содержат в себе мусорные значения.

Модель имеет высокую дисперсию.

Размер используемых обучающих данных недостаточен.

Модель слишком сложная.

Недостаточно подходит?

→ Сценарий, в котором модель машинного обучения не может ни изучить взаимосвязь между переменными в данных, ни предсказать или классифицировать новую точку данных.

Поскольку модель не полностью изучает закономерности, она принимает каждую новую точку данных во время прогнозирования.

причины :-

  • Данные, используемые для обучения, не очищаются и содержат в себе шумы (значения мусора).
  • Модель имеет высокий уклон.
  • Размер используемых обучающих данных недостаточен.
  • Модель слишком проста.

Теперь термин «Хорошее соответствие»?

→ Линия или кривая, которая лучше всего соответствует данным, не является ни переоснащением, ни недообучением моделей, а является правильным соответствием.

это хорошая линия соответствия, мы видим, что она лежит между набором данных.

Сейчас,

Регуляризация: –

→ Методы регуляризации используются для калибровки моделей линейной регрессии, чтобы минимизировать скорректированную функцию потерь и предотвратить переоснащение или недообучение.

Типы регуляризации: –

  • Регуляризация хребта
  • Регуляризация лассо

Регуляризация хребта: –

→ он модифицирует переобученные или недообученные модели, добавляя штраф, эквивалентный сумме квадратов величины коэффициента.

функция стоимости = потери + лямбда * (сумма (||w||))²

где,

убыток = сумма квадратов остатков

лямбда = штраф за ошибки

для линии линейной регрессии рассмотрим две точки на линии,

потеря = 0

лямбда = 1

w = 1.4

тогда функция стоимости = 0 + 1 * (1,4)² = 1,96

Теперь для гребневой регрессии предположим,

потери = (0,3)² + (0,2)² = 0,13

лямбда = 1

w = 0.7

тогда функция стоимости = 0,13 + 1 * 0,7² = 0,62.

  • Теперь здесь вы можете сравнить две модели со всеми точками данных, мы видим, что линия гребневой регрессии соответствует более точно.

Лассо-регрессия:-

→ Он изменяет переобученные или недообученные модели, добавляя штраф, эквивалентный сумме абсолютных значений коэффициента.

Сравнивая две модели со всеми точками данных, мы видим, что линия регрессии Лассо более точно соответствует модели, чем линия линейной регрессии.

Примечание. –

  • Регуляризация хребта полезна, когда у нас есть много переменных с относительно небольшими выборками данных.
  • Регуляризация лассо полезна, когда у нас меньше переменных.

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Если что-то не так, пожалуйста, скажите мне, я буду рад узнать.

Мой аккаунт LinkedIn ждет вас.

Спасибо!