Машинное обучение — это использование математических концепций (таких как вероятность, статистика, линейная алгебра, исчисление) и вычислительной мощности современных машин для изучения и понимания огромных объемов данных, чтобы понять лежащие в их основе закономерности и преобразовать их в полезную, действенную информацию. Делая прогнозы в случае обучения с учителем или кластеризируя неразмеченные данные в случае обучения без учителя.

Прежде чем мы подадим их в модель, наши входные данные делятся на две части: обучающие и тестовые данные. Разделение поезд-тест — это метод оценки производительности алгоритма машинного обучения. Его можно использовать для задач классификации или регрессии, а также для любого алгоритма обучения с учителем.

Процедура включает в себя получение набора данных и его разделение на два подмножества. Первое подмножество используется для подбора модели и называется обучающим набором данных. Второе подмножество не используется для обучения модели; вместо этого входной элемент набора данных предоставляется модели, затем делаются прогнозы и сравниваются с ожидаемыми значениями. Этот второй набор данных называется тестовым набором данных.

Цель состоит в том, чтобы оценить производительность модели машинного обучения на новых данных: данных, которые не использовались для обучения модели. Вот как мы предполагаем использовать модель на практике. А именно, чтобы подогнать его к доступным данным с известными входными и выходными данными, а затем сделать прогнозы на новых примерах в будущем, когда у нас нет ожидаемых выходных или целевых значений.

Понимание недообучения и переоснащения: -

При построении контролируемой модели обучения для прогнозирования нам в идеале нужна модель, которая точно изучает обучающие данные и делает прогнозы на тестовых данных, которые, как мы надеемся, не слишком далеки от фактических значений. Вот где это становится сложно: -

если мы выберем сложную модель, она слишком тщательно изучит обучающие данные и в конечном итоге изучит не только шаблон в данных, но и шум, и, как следствие, не сможет делать хорошие прогнозы на невидимых данных. Это называется переоснащением. С другой стороны, если мы выберем простую модель, она вполне может не уловить основную тенденцию в самих обучающих данных. Это называется недообучением.

Так как же найти оптимальную сбалансированную модель?

Допустим, нам даны некоторые входные переменные x, и мы должны предсказать выходную переменную y, которая зависит от входных переменных x, в этом случае мы сначала предположим, что существует истинная функция отношения f (x), которая сопоставляет наши входные переменные с выходными. Далее мы хотели бы определить форму функции f (x) из наблюдений за независимыми зависимыми парами значений. Хотя в реальном сценарии мы никогда не сможем наблюдать эту истинную функцию. Итак, что мы делаем, так это оцениваем другую функцию g(x), которая будет точно аппроксимировать нашу базовую функцию f(x). Этот g(x) называется оценкой f(x), и именно на этом основана наша модель. Цель этого упражнения — найти оценщик, который точно аппроксимирует истинную функцию f(x). Делая это, мы получаем довольно хорошее соответствие нашим обучающим данным и хороший общий прогноз для невидимых данных.

  • Недообучение происходит, когда оценщик g(x) недостаточно гибок, чтобы фиксировать основные тенденции в наблюдаемых данных.
  • Переоснащение происходит, когда оценщик слишком гибок, что позволяет ему фиксировать иллюзорные тенденции в данных. Эти иллюзорные тенденции часто являются результатом шума в наблюдениях y.

Когда дело доходит до обучения с учителем, существует множество надежных показателей для оценки производительности ваших моделей-кандидатов. Таким образом, цель проста: попробовать различные алгоритмы машинного обучения на ваших данных и выбрать модель, которая дает нам наименьшую ошибку в прогнозировании.

Но, чтобы свести к минимуму ошибку, надо ее понимать!!!!

Ошибка прогнозирования в машинном обучении с учителем состоит из трех компонентов: ошибка из-за предвзятости, ошибка из-за дисперсии и неустранимая ошибка. Мы всегда стараемся минимизировать первые две ошибки, так как мы ничего не можем сделать с неустранимой ошибкой, так как это случайный шум.

Ошибка = отклонение + отклонение²+ неустранимая ошибка.

Таким образом, чтобы свести к минимуму ошибку в прогнозировании, нам нужно уменьшить ошибки из-за смещения и дисперсии. Давайте разберемся, что такое Bias и Variance:

Определение смещения и дисперсии оценщика: -

Смещение – это разница между средним прогнозом и правильным значением. Это также известно как Ошибка из-за предвзятости. Смещение описывает, насколько средняя оценка, подходящая для множества наборов данных, E[g(x)] отклоняется от значения фактической основной целевой функции f(x).

Дисперсия оценщика — это «ожидаемое» значение квадрата разницы между оценкой модели и «ожидаемым» значением оценки по всем значениям в оценщике. Он измеряет, насколько разбросаны (непоследовательны) прогнозируемые значения от правильного значения из-за разных наборов обучающих данных.
Он также известен как Ошибка из-за дисперсии.

Оценка будет иметь высокую ошибку, если она имеет высокое смещение и низкую дисперсию, то есть когда она не может адаптироваться к точкам данных в наборе выборки. С другой стороны, оценщик также будет иметь высокую ошибку, если он имеет высокую дисперсию и низкое смещение, то есть когда он слишком хорошо адаптируется ко всем точкам данных в наших обучающих данных и, следовательно, не может обобщить другие невидимые выборки и, в конечном итоге, не может обобщить истинный набор данных.

Переобучение. Это модель с низким смещением и высокой дисперсией. Как правило, деревья решений склонны к переоснащению.

Недообучение. Это модель с высоким смещением и низкой дисперсией. Как правило, линейная и логистическая регрессии подвержены недообучению.

Оценщик, который обеспечивает баланс между смещением и дисперсией, способен минимизировать ошибку лучше, чем те, которые живут на крайних значениях. Поэтому крайне важно найти баланс в этом компромиссе между смещением и дисперсией, чтобы найти оптимальную модель, поскольку нам нужен оценщик, который имеет как низкую погрешность, так и низкую дисперсию.

На приведенной выше диаграмме показано изменение ошибок из-за смещения и дисперсии с увеличением сложности модели. Как мы видим, ошибка из-за смещения уменьшается с увеличением сложности, тогда как ошибка из-за дисперсии увеличивается. Точка, в которой эти две ошибки в совокупности минимальны, является точкой оптимальной сложности нашей модели. При построении нашей модели мы всегда пытаемся определить оптимальную сложность модели, так как эта модель даст нам наименьшую ошибку прогноза и даст нам наиболее точные прогнозы на невидимых данных.