Вот несколько часто задаваемых вопросов, обобщенных на основе нескольких интервью.
1. Объясните компромисс между отклонением и отклонением?
Целью любого контролируемого алгоритма машинного обучения является достижение низкого смещения и низкой дисперсии. В свою очередь, алгоритм должен обеспечивать хорошую производительность прогнозирования.
Вы можете увидеть общую тенденцию в приведенных выше примерах:
- Линейные алгоритмы машинного обучения часто имеют большое смещение, но низкую дисперсию.
- Нелинейные алгоритмы машинного обучения часто имеют низкую погрешность, но высокую дисперсию.
Параметризация алгоритмов машинного обучения часто представляет собой битву за баланс между предвзятостью и дисперсией. В машинном обучении невозможно избежать взаимосвязи между предвзятостью и дисперсией.
- Увеличение смещения уменьшит дисперсию.
- Увеличение дисперсии уменьшит смещение.
Существует компромисс между этими двумя проблемами, и выбранные вами алгоритмы и способ их настройки находят разные балансы в этом компромиссе для вашей проблемы.
Например, k из k ближайших соседей — один из примеров. Небольшое значение k приводит к прогнозам с высокой дисперсией и низким смещением. Большое значение k приводит к прогнозам с небольшой дисперсией и большим смещением.
2.Что такое бэггинг и буст?
Бэггинг — это способ уменьшить дисперсию прогноза путем создания дополнительных данных для обучения из набора данных с использованием комбинаций с повторениями для создания множественных наборов исходных данных.
Повышение — это итеративный метод, который регулирует вес наблюдения на основе последней классификации. Если наблюдение было классифицировано неправильно, он пытается увеличить вес этого наблюдения. В целом бустинг строит надежные прогностические модели.
3. Что такое исчезающие и взрывающиеся градиенты и как с ними бороться?
При обучении RNN наклон может быть либо слишком маленьким, либо слишком большим, что приводит к исчезновению и взрыву градиентов соответственно.
Работа со взрывающимися градиентами. Чтобы исправить это, примените отсечение градиента; который устанавливает предопределенный порог для градиентов, чтобы предотвратить их слишком большое, и, делая это, он не меняет направление градиентов, а только изменяет их длину.
Работа с исчезающими градиентами. Одним из решений является архитектура identity RNN; где веса сети инициализируются матрицей идентичности, а все функции активации установлены в ReLU, и это в конечном итоге побуждает сетевые вычисления оставаться близкими к функции идентичности. Еще более популярным и широко используемым решением является Длинный архитектура кратковременной памяти (LSTM); вариант обычной рекуррентной сети, который был разработан, чтобы упростить сбор долгосрочных зависимостей в данных последовательности.
4.Объясните методы регуляризации L1 и L2?
При взятии производной функции стоимости при регуляризации L1 она будет оцениваться около медианы данных. В то время как при регуляризации L2 при вычислении функции потерь на этапе вычисления градиента , функция потерь пытается минимизировать потери, вычитая их из среднего распределения данных.
Еще одно различие между ними заключается в том, что L1 помогает в выборе функций, исключая функции, которые не важны.
5. Какова роль функции активации?
Функция активации – это функция, которая добавляется в искусственную нейронную сеть, чтобы помочь сети изучить сложные закономерности в данных.
6.Определите точность и полноту.
Отзыв также известен как истинный положительный показатель: количество положительных результатов, заявленных вашей моделью, по сравнению с фактическим количеством положительных результатов во всех данных. Точность также известна как положительное прогностическое значение, и это мера количества точных положительных результатов, заявленных вашей моделью, по сравнению с количеством положительных результатов, которые она фактически заявляет.
7.Разница между ошибкой типа 1 и ошибкой типа 2?
Ошибка I типа является ложноположительной, а ошибка II рода — ложноотрицательной. Вкратце, ошибка типа I означает утверждение, что что-то произошло, когда этого не произошло, а ошибка типа II означает, что вы утверждаете, что ничего не происходит, когда на самом деле что-то происходит.