Неделя № 5 в машинном обучении

Повышение точности моделей машинного обучения

Производительность модели всегда измеряется с использованием установленных методов оценки, о которых мы упоминали ранее. Эти метрики помогают сравнивать или оценивать производительность модели и решать, работает ли она лучше или хуже.

Большинство специалистов по данным сдаются, когда дело доходит до повышения производительности модели. Это сложная деятельность. Способы улучшения производительности модели включают в себя:

Данные

Больше данных приводит к более точным и лучшим моделям. Это может быть невозможно в данных о конкуренции, но возможно в разделе предприятий, где будет работать большинство специалистов по данным. В результате, если вы, как специалист по данным, работаете над моделью, запросите дополнительные данные, чтобы модели работали лучше.
Подходы нелинейного машинного обучения, такие как глубокое обучение, продолжают повышать производительность по мере добавления большего количества данных.

Обработка отсутствующих данных и выбросов

Отсутствующие данные и выбросы могут привести к возникновению систематической ошибки в модели. Это также снижает точность сделанных прогнозов. Существуют различные способы обработки пропущенных значений.

Работа с пропущенными значениями
Часть 1 в процессе очистки данныхmedium.com

Однако тот, который вы выберете, не должен так сильно влиять на баланс данных. Важно, чтобы данные были импутированы, если это возможно. Использование таких методов, как вменение с использованием KNN, помогает снизить вероятность того, что модель будет смещена.
Более чистые данные могут помочь повысить производительность
Прочтите эту статью о том, как бороться с выбросами

Выбросы и как с ними справиться
Вот наш следующий пост в разделе «Путешествие по очистке данных, посвященный выбросам. Когда мы говорим о выбросах, мы не говорим…medium.com»

Разработка функций

Разработка признаков помогает извлечь больше информации из имеющихся у вас данных. Разработка признаков может помочь объяснить некоторые атрибуты обучающих данных, такие как дисперсия. Чтобы получить лучшие характеристики, поможет генерация гипотез.
Некоторые из подходов к разработке признаков включают нормализацию данных и стандартизацию, которые помогают улучшить производительность алгоритмов, использующих взвешенные входные данные или меры расстояния.
Другие функции могут быть получены из существующих переменных. этот подход помогает раскрыть взаимосвязь набора данных, который может быть скрыт.

Выбор функции

Выбор полезных функций важен при работе над проектами по науке о данных. Выбор признаков включает в себя поиск лучших атрибутов, которые лучше всего объясняют взаимосвязь независимых переменных с целевыми переменными.
Вот некоторые из показателей, которые помогут выбрать полезные функции:

- Базовые знания

— Визуализация

— Статистические параметры, такие как PCA, p-значения, информационные значения.

Несколько алгоритмов

Некоторые алгоритмы лучше подходят для определенных типов наборов данных, чем другие. Следовательно, это означает, что важно применять все соответствующие модели и выбирать ту, которая обладает наилучшей производительностью.

Настройка параметров

Параметры в алгоритме влияют на результат процесса обучения.
Настройка параметров помогает найти оптимальные значения для каждого параметра, чтобы повысить точность используемой модели.
Однако, чтобы извлечь выгоду из настройки параметров, вам необходимо понимать конкретные параметры и то, что каждый из них означает или как каждый из них повлияет на производительность модели.
Поиск по сетке может помочь понять, какие существуют сетки гиперпараметров стандартов и как их перечислить, чтобы найти лучшую конфигурацию.

Алгоритмический подход

Этот подход тесно связан с двумя последними подходами. Он включает в себя выбор наилучших показателей оценки для этого алгоритма на основе показателей, которые лучше отражают требования проблемы и предметной области.
Выборочная проверка как линейных, так и нелинейных алгоритмов. Линейные алгоритмы более предвзяты, в то время как нелинейные подходы требуют больше данных.
Изучите рекомендуемые алгоритмы, основанные на вашей проблеме.
Настройте свои алгоритмы наилучшим образом. Это не относится к настройке алгоритма, а просто предлагает вам убедиться, что вы изучили, как лучше настроить каждый алгоритм и, следовательно, дать ему больше шансов работать хорошо.

Методы ансамбля

Этот подход использует результаты различных слабых моделей и дает лучшие результаты за счет объединения моделей.
Он имеет два подхода, в том числе: бэггинг и повышение
Методы ансамбля более сложны, чем традиционные методы, что делает их лучшим подходом к повышению точности.

Перекрестная проверка

Этот подход помогает понять, почему модель не работает должным образом, возможно, из-за переобучения.

Источники

Как повысить точность модели машинного обучения
Повышение производительности модели иногда может быть сложной задачей. Уверен, многие из вас согласятся со мной, если найдут…www.analyticsvidhya.com

Шпаргалка по повышению производительности машинного обучения — мастерство машинного обучения
32 совета, хитрости и лайфхака, которые можно использовать, чтобы делать более точные прогнозы. Самая ценная часть машинного обучения — это…machinelearningmastery.com

3 способа оценить и улучшить модели машинного обучения
Getty Images/iStockphoto Эта статья взята из курса «Фундаментальное машинное обучение, часть Machine… www.techtarget.com»

Неделя № 5 в машинном обучении

Источники

Вопросы по теме