Настройка гиперпараметров

В этом блоге мы подробно разберемся в настройке гиперпараметров.

Параметр

В машинном обучении параметр относится к переменной конфигурации, которая используется алгоритмом для прогнозирования или изучения закономерностей на основе данных. Эти параметры обычно изучаются или оцениваются на основе обучающих данных в процессе обучения модели.
В машинном обучении есть два типа параметров:

а) Параметры модели.

б) Гиперпараметры модели.

a)Параметры модели (Внутренние параметры)

1) Их можно обучать непосредственно на основе данных.

2) Параметры модели изучаются во время обучения, когда мы оптимизируем функцию потерь, используя такой метод, как градиентный спуск. (оптимизация подразумевает определение наилучших параметров модели, при которых функция потерь модели уменьшается, в результате чего модель может прогнозировать более точно).

3) Параметры модели определяют, как преобразовать входные данные в желаемый результат.

4) Параметры модели — это свойства обучающих данных, которые обучаются самостоятельно во время обучения с помощью модели машинного обучения.

5)Обучение в ходе тренировочного процесса.

Параметры модели: веса, смещение.

b)Гиперпараметры модели (Внешние параметры)

1) Их нельзя обучить напрямую на основе данных. (означает, что его стоимость не может быть оценена на основе данных).

2) Невозможно рассчитать или обновить гиперпараметр, чтобы уменьшить потери и найти оптимальную архитектуру модели.

3) Гиперпараметр определяет, как наша модель машинного обучения на самом деле является структурой.

4) Обычно мы проводим эксперименты, чтобы определить, какое значение работает лучше всего.

5)Гиперпараметр — это параметры, значение которых используется для управления процессом обучения.

6) Он используется в процессе для оценки параметров модели.

7) На самом деле они исправляются еще до начала тренировочного процесса.

Гиперпараметры

Гиперпараметры — это параметры, значение которых задается до начала процесса обучения.

Гиперпараметры модели

i) Скорость обучения.

ii) Лямбда в регуляризации хребта и лассо.

iii) Перекрестная проверка.

iv)n_ оценок.

i) Скорость обучения.

• Используется при градиентном спуске для нахождения глобального минимума функции.

(Градиентный спуск. Градиентный спуск — это итеративный алгоритм оптимизации для поиска глобального минимума функции. Здесь эта функция является функцией потерь.)

ii)Лямбда в регуляризации хребта и лассо.

Прежде чем разобраться с регуляризацией Ridge(L2) и Lasso(L1), нам необходимо сначала понять

а) линейная регрессия - это не что иное, как попытка найти наилучшую линию, которая минимизирует остатки, что дает результат обобщенной модели.

б) Смещение и дисперсия — мы используем термин смещение для обучения и дисперсию для результата тестирования.

Если модель хорошо работает как в обучающем, так и в тестовом наборе данных, то она называется низкой погрешностью и низкой дисперсией [обобщенная модель].
Если моя модель работает хуже всего как в обучающем, так и в тестовом наборе данных, что дает высокую ошибку, мы называем это высоким смещением и высокой дисперсией [условие недостаточного соответствия].
Если моя модель хорошо работает в наборе обучающих данных и плохо работает в наборе тестовых данных, мы называем это низким смещением и высокой дисперсией [условием переоснащения].
Чтобы преодолеть это условие переобучения и привести модель к обобщенной регуляризации, появилась техника. Таким образом, гребень и лассо — это метод регуляризации, который имеет дело с переобучением и большим набором данных. Этот метод предполагает добавление штрафов к функции стоимости.
Этот штраф представляет собой не что иное, как лямбда, то есть гиперпараметр. мы используем набор значений лямбда, потому что мы не используем штрафное значение и не проверяем, какой гиперпараметр дает наилучшую точность как для набора данных обучения, так и для тестирования.

iii) Перекрестная проверка (cv)

Перекрестная проверка — это метод, который включает в себя разделение набора данных на подмножества, обучение модели на некоторых подмножествах и оценку ее производительности на оставшемся подмножестве.

Основная цель перекрестной проверки — оценить, насколько хорошо обученная модель будет работать на невидимых данных. Это помогает обнаружить такие проблемы, как переоснащение или недостаточное оснащение, и обеспечивает более надежную оценку производительности модели.

Типы перекрестной проверки

Оставьте одну перекрестную проверку
Перекрестная проверка удержания
k-кратная перекрестная проверка
Стратифицированная k-кратная перекрестная проверка
Перекрестная проверка временных рядов

iv) n_ оценок

Количество локонов, которые вы хотите построить для модели.

Настройка гиперпараметров — это процесс поиска значений гиперпараметров алгоритма обучения, которые создают наилучшую модель.

Результатом настройки гиперпараметров является лучшая настройка гиперпараметров, а результатом обучения модели — лучшие настройки параметров модели.
Модель машинного обучения может иметь множество гиперпараметров, и поиск наилучшей комбинации параметров можно рассматривать как задачу поиска.
мы не можем знать лучшее значение гиперпараметра модели для данной проблемы. Таким образом, мы можем найти лучшее соотношение цены и качества методом проб и ошибок.

Типы метода настройки гиперпараметров

а)GridSearchCV

b)Резюме рандомизированного поиска

а)GridSearchCV

В подходе к поиску по сетке модель машинного обучения оценивается для диапазона значений гиперпараметров.
Он называется поиском по сетке, потому что он ищет лучший набор гиперпараметров из сетки значений гиперпараметров.
Попробуйте все комбинации.
Это исчерпывающий поиск в заданном вручную подмножестве пространства гиперпараметров алгоритма обучения.
Используя технику поиска по сетке, мы просто строим модель для каждой возможной комбинации всех предоставленных значений гиперпараметров, оценивая каждую модель и выбирая архитектуру, которая дает наилучший результат.

Недостатки

Он будет проходить через всю промежуточную комбинацию гиперпараметров, что делает поиск по сетке вычислительно очень дорогостоящим (это занимает много времени).

б) Рандомизированный поиск CV

Вместо поиска по всей сетке случайный поиск оценивает только случайную выборку точек сетки на основе случайного состояния и дает наилучшие оценки.
Это делает случайный поиск намного дешевле, чем поиск по сетке.