Выбор правильного алгоритма для задачи регрессии

Люди часто задают вопрос, как мы решаем с помощью алгоритма, который мы должны использовать для решения конкретной проблемы науки о данных. Как начать работу с вашим вариантом использования или проектом. Как правило, многие новички и профессионалы считают, что они будут опробовать возможные алгоритмы, доступные для вашей задачи, например. для проблемы регрессии, линейной регрессии, случайного лесного регрессора или XGBoost и т. д. Но опять же, результаты не говорят, почему одни алгоритмы работают лучше, чем другие.

Не существует четкого правила, которое говорит о том, какой метод машинного обучения вы должны использовать для своего варианта использования. Но в этой статье я постараюсь охватить аспекты, которые следует учитывать при выборе алгоритма для задачи регрессии. Это может не подходить для всех задач науки о данных, но больше похоже на обобщенный способ. Итак, не теряя времени, приступим.

Проблемы регрессии:

Мы знаем, что проблемы регрессии пытаются решить проблему науки о данных, когда у вас есть структурированные данные, а ваша метка является непрерывной переменной. Существует несколько методов машинного обучения, которые могут решить проблему регрессии, но выбор правильного в начале все еще остается проблемой, если вы не понимаете, как алгоритмы ведут себя с разными типами данных.

Линейная регрессия:

Это простой статистический метод, который позволяет нам обобщать и изучать взаимосвязь между двумя или более непрерывными переменными.

Линейная регрессия уместна, когда:

  • Связь между независимыми и зависимыми переменными можно объяснить линейной зависимостью.
  • Вы хотите, чтобы ваша модель была интерпретируемой, поскольку прогнозы производятся взвешенной суммой уравнения линейной регрессии.
  • Вы хотите, чтобы ваша модель была быстрой и дешевой в вычислительном отношении.

Помимо приведенных выше пунктов, мы должны рассмотреть четыре предположения, которые должны быть верными в отношении набора данных:

  • Связь между переменной является линейной.
  • Между переменными не должно быть мультиколлинеарности.
  • Остатки должны быть нормально распределены.
  • Дисперсия остатков должна быть более или менее постоянной.

Линейная регрессия не подходит, когда:

  • Связь между переменными следует нелинейной зависимости (большинство реальных проблем).
  • Данные не следуют предположениям линейной регрессии.
  • Вы не хотите, чтобы ваша модель была чрезмерно упрощенной

Случайный лес для задачи регрессии:

Случайный лес, один из самых популярных и мощных ансамблевых методов, используемых сегодня в машинном обучении. Случайный лес (сильный ученик) построен как ансамбль деревьев решений (слабый ученик) для выполнения различных задач, таких как регрессия и классификация. Случайный лес использует выборочные подмножества как обучающих данных, так и пространства признаков, что приводит к высокому разнообразию и случайности, а также к низкой дисперсии. Изображение ниже дает представление о том, как алгоритм регрессии на основе дерева решает нелинейные сложные отношения.

Случайный лес для регрессии подходит, когда:

  • Связь между переменными не может быть объяснена линейной зависимостью.
  • Количество категориальных признаков больше в данных.

Случайный лес для регрессии не подходит, когда:

  • Модель должна быть интерпретируемой.
  • Данные следуют линейной зависимости между независимой и зависимой переменной (лучше использовать линейную регрессию).

Я надеюсь, что приведенная выше статья даст вам некоторое представление о том, какие алгоритмы выбрать для задачи регрессии. Это может не подходить для всех вариантов использования, поскольку невозможно определить набор правил для выбора алгоритмов, поскольку данные в реальных задачах очень разнообразны в разных областях. Я могу отредактировать сообщение в будущем, если найду более актуальную информацию по этой теме. Я напишу еще одну статью для выбора алгоритма для задач классификации. Я хотел бы услышать ваши предложения или отзывы о статье.

Удачи и приятного обучения!!!

Хорошие ресурсы и ссылки: