Разберитесь с оптимизацией модели машинного обучения за 5 минут

Вам интересно, как сделать ваши модели машинного обучения более производительными? Это то, что мы увидим в ближайшие 5 минут.

Эта статья представляет собой краткое введение в то, как сделать ваши модели машинного обучения более производительными и как их оптимизировать.

Смещение и дисперсия:

Предвзятость — это тенденция последовательно узнавать что-то не то, не принимая во внимание всю информацию, содержащуюся в данных. Высокая дисперсия является результатом подгонки алгоритма к случайному шуму в обучающих данных.

Вот визуальное представление смещения и дисперсии с помощью аналогии с дротиками:

Старайтесь, чтобы ваша модель была максимально простой, это поможет повысить ее производительность.

Большая сложность означает более высокую дисперсию.
Меньшая сложность означает большую предвзятость.

Ваша цель — найти компромисс между смещением и дисперсией, найдя правильную сложность модели, которая максимально минимизирует как смещение, так и дисперсию.

Общая ошибка вашей модели = смещение + дисперсия + ошибка, которую мы не можем контролировать.

Подгонка моделей:

Модели недообучения — это слишком простые модели, в которых у нас низкая дисперсия, но высокое смещение. Это означает, что алгоритм не может уловить основной тренд данных.

Переоснащение моделей:

Модели переобучения — это слишком сложные модели, в которых мы имеем низкое смещение, но высокую дисперсию. Это означает, что алгоритм слишком близко подходит к обучающей выборке и просто запоминает примеры.

Настройка гиперпараметров:

Прежде чем мы поговорим о настройке гиперпараметров, нам нужно понять, что такое параметр.

Параметр – это переменная, которая является внутренней по отношению к модели и значение которой можно оценить на основе данных.

Режим гиперпараметр — это переменная, внешняя по отношению к модели, значение которой не может быть оценено на основе данных и определяет, как алгоритм извлекает значения параметров из данных.

Ниже приведен наглядный пример параметров и гиперпараметров:

В этом примере параметры:

тариф › $20
класс билета = третий

Гиперпараметры:

максимальная глубина дерева (в данном случае 2)
особенности, которые следует учитывать

Гиперпараметры — это предположения, которые вы устанавливаете заранее, которые определяют соответствие модели и могут привести к недообучению или переоснащению.

Регуляризация:

Регуляризация — это метод, используемый для уменьшения переобучения путем предотвращения использования слишком сложных моделей.

Существуют различные типы регуляризации, и одним из них является гребенчатая регрессия. Идея состоит в том, чтобы изменить наклон линии, добавив штраф к функции потерь, это ограничит коэффициенты.

Вы можете видеть на диаграмме выше, что мы меняем наклон нашей регрессии наименьших квадратов, чтобы получить регрессию гребня. Это позволяет нашей модели быть более эффективной в случае переобучения.

Еще одним методом регуляризации является регуляризация отсева. Он заключается в игнорировании некоторых узлов во время обучения. Это заставит другие узлы взять на себя больше или меньше ответственности за ввод/вывод. Вы можете использовать метод отсева, когда чувствуете, что один узел переобучен.

Резюме

Чтобы оптимизировать модели машинного обучения, рассмотрите возможность использования регуляризации и настройки гиперпараметров.

Надеюсь, вам понравилось читать, и если вы хотите увидеть мои следующие статьи, не стесняйтесь подписываться на меня на Medium.