Вам интересно, как сделать ваши модели машинного обучения более производительными? Это то, что мы увидим в ближайшие 5 минут.
Эта статья представляет собой краткое введение в то, как сделать ваши модели машинного обучения более производительными и как их оптимизировать.
Смещение и дисперсия:
Предвзятость — это тенденция последовательно узнавать что-то не то, не принимая во внимание всю информацию, содержащуюся в данных. Высокая дисперсия является результатом подгонки алгоритма к случайному шуму в обучающих данных.
Вот визуальное представление смещения и дисперсии с помощью аналогии с дротиками:
Старайтесь, чтобы ваша модель была максимально простой, это поможет повысить ее производительность.
- Большая сложность означает более высокую дисперсию.
- Меньшая сложность означает большую предвзятость.
Ваша цель — найти компромисс между смещением и дисперсией, найдя правильную сложность модели, которая максимально минимизирует как смещение, так и дисперсию.
Общая ошибка вашей модели = смещение + дисперсия + ошибка, которую мы не можем контролировать.
Подгонка моделей:
Модели недообучения — это слишком простые модели, в которых у нас низкая дисперсия, но высокое смещение. Это означает, что алгоритм не может уловить основной тренд данных.
Переоснащение моделей:
Модели переобучения — это слишком сложные модели, в которых мы имеем низкое смещение, но высокую дисперсию. Это означает, что алгоритм слишком близко подходит к обучающей выборке и просто запоминает примеры.
Настройка гиперпараметров:
Прежде чем мы поговорим о настройке гиперпараметров, нам нужно понять, что такое параметр.
Параметр – это переменная, которая является внутренней по отношению к модели и значение которой можно оценить на основе данных.
Режим гиперпараметр — это переменная, внешняя по отношению к модели, значение которой не может быть оценено на основе данных и определяет, как алгоритм извлекает значения параметров из данных.
Ниже приведен наглядный пример параметров и гиперпараметров:
В этом примере параметры:
- тариф › $20
- класс билета = третий
Гиперпараметры:
- максимальная глубина дерева (в данном случае 2)
- особенности, которые следует учитывать
Гиперпараметры — это предположения, которые вы устанавливаете заранее, которые определяют соответствие модели и могут привести к недообучению или переоснащению.
Регуляризация:
Регуляризация — это метод, используемый для уменьшения переобучения путем предотвращения использования слишком сложных моделей.
Существуют различные типы регуляризации, и одним из них является гребенчатая регрессия. Идея состоит в том, чтобы изменить наклон линии, добавив штраф к функции потерь, это ограничит коэффициенты.
Вы можете видеть на диаграмме выше, что мы меняем наклон нашей регрессии наименьших квадратов, чтобы получить регрессию гребня. Это позволяет нашей модели быть более эффективной в случае переобучения.
Еще одним методом регуляризации является регуляризация отсева. Он заключается в игнорировании некоторых узлов во время обучения. Это заставит другие узлы взять на себя больше или меньше ответственности за ввод/вывод. Вы можете использовать метод отсева, когда чувствуете, что один узел переобучен.
Резюме
Чтобы оптимизировать модели машинного обучения, рассмотрите возможность использования регуляризации и настройки гиперпараметров.
Надеюсь, вам понравилось читать, и если вы хотите увидеть мои следующие статьи, не стесняйтесь подписываться на меня на Medium.