Публикации по теме 'model-selection'


Почему (не) использовать случайные леса?
Я не хочу придумывать здесь длинную историю, а скорее перечислю преимущества и недостатки случайных лесов (RF), чтобы иметь краткую справку. Я более чем рад любым комментариям по перечисленным плюсам и минусам или если у вас есть какие-либо дополнительные комментарии, которые вы хотели бы опубликовать. Плюсы: Преодолевает проблему переоснащения деревьев решений Решает проблемы регрессии и классификации Хорошо работает как с непрерывными, так и с категориальными переменными..

Принцип выбора модели:
Прежде чем выбрать какую-либо модель, необходимо иметь в виду, что разные модели хорошо подходят для разных типов ситуаций. Некоторые хорошо работают с многомерными данными, а некоторые нет. Точно так же некоторые могут обрабатывать зашумленные данные и пропущенные значения, тогда как некоторые не могут этого сделать. Таким образом, каждый класс моделей имеет свои сильные и слабые стороны. В зависимости от вычислительных ресурсов и типа данных, которые у вас есть, вам необходимо..

День 20 #DataScience28: выбор и проверка модели
Выбор и проверка модели являются важнейшими компонентами любого проекта по науке о данных. Они включают в себя процесс выбора наилучшей модели для данной проблемы и обеспечения точности и надежности модели. В этой статье мы обсудим важность выбора и проверки модели и то, как они влияют на успех или неудачу проекта по науке о данных. Что такое выбор модели? Выбор модели — это процесс выбора наилучшей модели для данной проблемы. Существует множество различных типов моделей, которые..

Экспериментирование с матрицей путаницы для регрессии — Мощный инструмент анализа моделей.
Оглавление: 1 — Матрица путаницы (CM) 2 — Многоклассовая матрица путаницы (MCM) 3- Матрица путаницы регрессии 4- Показатель точности RCM AUC 5 – показатель RCM F1 AUC 6- Заключение 1-Матрица путаницы (CM) Матрица путаницы – это популярный инструмент для подведения итогов эффективности алгоритма классификации (модель, которая используется для прогнозирования дискретной переменной ), давая лучшее представление о том, что правильно прогнозируется и какие типы..

XGBoost против случайного леса
Недавно я работал над моделью Market Mix, в которой мне нужно было прогнозировать продажи по показам. Во время работы над одним из аспектов я столкнулся с проблемой выбора между случайным лесом и усилением XG. Это привело к созданию данной статьи. Прежде чем мы перейдем к аргументам в пользу любого из алгоритмов, давайте вкратце разберемся с основной идеей, лежащей в основе этих двух алгоритмов. Термин «повышение градиента» состоит из двух частей: «градиент» и «повышение»...

Разумная настройка гиперпараметров XGBoost - часть 1 из 2
В этом и следующем посте мы рассмотрим одну из самых сложных и критических проблем машинного обучения (ML): настройку гиперпараметров. Рассмотрев, что такое гиперпараметры, или кратко гиперпарам, и чем они отличаются от простых обучаемых параметров, мы представляем три общих алгоритма дискретной оптимизации, нацеленных на поиск оптимальной комбинации гиперпараметров: поиск по сетке, спуск по координатам. и генетические алгоритмы. Мы сообщаем о результатах эксперимента, в котором мы..

Использование исправленного парного t-критерия Стьюдента для сравнения моделей машинного обучения
Сравнение производительности методов машинного обучения (ML) для данной задачи и выбор окончательного метода - обычная операция в прикладном машинном обучении. Цель этого поста - сначала продемонстрировать, почему нам нужно использовать статистические методы для выбора окончательной модели. Затем объясняется, почему один из часто используемых тестов статистических гипотез (т. Е. Парный t-критерий Стьюдента) неадекватен для сравнения производительности моделей машинного обучения. Наконец,..