Эта статья является частью серии:

«Начало работы с машинным обучением: пошаговое руководство»

Предвзятость

В машинном обучении предвзятость относится к неспособности модели уловить истинную связь между входными данными и выходными метками. Например, если мы пытаемся предсказать рост кошек на основе их веса и используем модель линейной регрессии, прямая линия никогда не сможет отразить истинное соотношение между весом и ростом, потому что она не может изгибаться, как истинное соотношение. . Это отсутствие гибкости называется предвзятостью.

Чтобы проиллюстрировать эту концепцию, давайте рассмотрим пример, в котором у нас есть набор данных, содержащий вес и рост группы кошек. Если мы нанесем эти данные на график, мы увидим, что более легкие кошки, как правило, ниже, а более тяжелые кошки, как правило, выше. Однако после определенного веса кошки могут не стать выше, а скорее стать более тучными.

Учитывая эти данные, мы хотели бы предсказать рост кошки на основе ее веса. В идеале мы должны знать точную математическую формулу, описывающую взаимосвязь между весом и ростом, но в данном случае мы не знаем формулы. Итак, мы собираемся использовать метод машинного обучения, такой как линейная регрессия, для аппроксимации этой взаимосвязи.

Однако, несмотря на то, что линейная регрессия является широко используемым методом прогнозирования, она имеет существенное ограничение, когда речь идет о фиксации сложных взаимосвязей между переменными. В этом случае прямая линия модели линейной регрессии никогда не сможет точно воспроизвести кривую в истинном соотношении между весом и ростом, независимо от того, насколько хорошо мы подогнали ее к обучающим данным. Эта неспособность уловить истинные отношения называется предвзятостью. Высокое смещение может привести к недообучению.

Чтобы преодолеть эту проблему, мы могли бы рассмотреть возможность использования более гибкой модели, такой как полиномиальная регрессия, которая может подгонять кривые к данным и лучше отражать истинную связь между весом и ростом. Однако важно найти баланс между предвзятостью и дисперсией, поскольку очень гибкая модель может не соответствовать обучающим данным и плохо работать с новыми, невидимыми данными.

Дисперсия

Дисперсия в машинном обучении относится к степени, в которой прогнозы или результаты модели варьируются от одной выборки к другой. Другими словами, он измеряет, насколько прогнозы или результаты модели отличаются от среднего или ожидаемого значения.

Если наша модель имеет высокую дисперсию, это означает, что ее прогнозы веса данной кошки будут значительно различаться в зависимости от конкретного роста этой кошки. Напротив, если модель имеет низкую дисперсию, ее прогнозы веса данной кошки будут относительно согласованными независимо от конкретного роста кошки.

Один из способов понять эту концепцию — представить две разные модели, которые обучены прогнозировать вес кошек на основе их роста. Модель А имеет высокую дисперсию, а модель Б — низкую. Если вы введете одно и то же значение роста в обе модели, модель А может предсказать вес, который значительно отличается от предсказания модели Б. Это может быть связано с различиями в обучающих данных, которые использовались для создания двух моделей, или с различиями в алгоритмах или подходах, которые использовались для построения моделей. Высокая дисперсия может привести к переоснащению.

В целом, предпочтительно иметь модель машинного обучения с низкой дисперсией, так как это может указывать на то, что модель более стабильна и надежна. Однако в некоторых случаях модель с более высокой дисперсией может быть более точной, особенно если она способна отразить большую сложность и изменчивость исходных данных.

Эта статья является частью серии:

«Начало работы с машинным обучением: пошаговое руководство»