Важные алгоритмы машинного обучения в 2021 году

Конечно, за годы работы в области науки о данных произошел большой прогресс. Некоторые новые эффективные алгоритмы были предложены также в ходе различных исследований. Но некоторые основы останутся основой всех продвинутых алгоритмов.

Ниже приведен список таких 11 алгоритмов машинного обучения, которые в основном использовались в области науки о данных и задавались также в интервью по науке о данных.

  1. Линейная регрессия: - это наиболее известный и понятный алгоритм в статистике и машинном обучении. Линейная регрессия - это линейная модель, например, модель, которая предполагает линейную зависимость между входными переменными (x) и единственной выходной переменной (y), что означает, что y можно легко вычислить с использованием линейной зависимости.
  • Когда есть одна входная переменная (x), уравнение называется простой линейной регрессией.
  • Когда имеется более одной входной переменной, уравнение называется множественной линейной регрессией.

Уравнение:
y = B0 + B1 * x (где x - входная переменная, y - выходная переменная, а B0 и B1 - коэффициенты)

Линия наилучшего соответствия находится путем минимизации квадратов расстояний между точками и линией наилучшего соответствия, и это называется минимизацией суммы квадратов остатков.

Остаток просто равен прогнозируемому значению минус фактическое значение.

2. Логистическая регрессия: - Логистическая регрессия - это алгоритм классификации, основанный на функции, которая используется в основе метода, логистической функции или сигмоидной функции. Это S-образная кривая, которая используется для прогнозирования двоичного результата (1/0, Да / Нет, Истина / Ложь) с учетом набора независимых переменных.

  • Это также можно рассматривать как частный случай линейной регрессии, когда переменная результата является категориальной, когда мы используем логарифм шансов в качестве зависимой переменной.
  • Он предсказывает вероятность возникновения события, подбирая данные для логит-функции.

p(X) = e^(b0 + b1*X) / (1 + e^(b0 + b1*X))

3. K-Nearest Neighbours: - Алгоритм K-ближайших соседей (KNN) - это алгоритм машинного обучения с учителем, который можно использовать для решения задач как классификации, так и регрессии.

  • Он работает, находя расстояния между новой добавленной точкой данных и точками, уже существующими в двух отдельных классах. Какой бы класс ни получил наибольшее количество голосов, новая точка данных принадлежит этому классу.

Евклидово расстояние (x, xi) = sqrt (sum ((xj - xij) ²))

4. Машины опорных векторов: - Это управляемый алгоритм машинного обучения, который также может использоваться для обеих задач: - классификации и регрессии. тем не менее, он в основном используется в задачах классификации.

  • SVM найдет гиперплоскость или границу между двумя классами данных, которая максимизируется. Есть и другие плоскости, которые могут разделять два класса, но только гиперплоскость SVM может максимизировать разницу между классами.

B0 + (B1 * X1) + (B2 * X2) = 0, где B1 и B2 определяют наклон линии, а B0 (точку пересечения), найденную алгоритмом обучения. X1 и X2 - две входные переменные.

5. Деревья решений: - Алгоритмы деревьев решений называются CART или деревьями классификации и регрессии. Это блок-схема, подобная древовидной структуре, где каждый внутренний узел обозначает проверку атрибута, каждая ветвь представляет результат проверки, а каждый конечный узел (конечный узел) содержит метку класса.

  • Оценка Джини дает представление о том, насколько хорошо разделение, по тому, насколько смешаны классы ответов в группах, созданных в результате разделения.

6. Случайный лес: - Случайные леса - это метод коллективного обучения, основанный на деревьях решений.

  • Случайные леса включают создание нескольких деревьев решений с использованием самонастраиваемых наборов исходных данных и случайный выбор подмножества переменных на каждом шаге дерева решений.
  • Затем модель выбирает режим всех прогнозов каждого дерева решений (упаковка).

7. AdaBoost: - Адаптивное усиление - это также комплексный алгоритм, который использует методы пакетирования и повышения для разработки улучшенного предиктора.

  • AdaBoost создает лес из пней, а не деревьев. Пень - это дерево, состоящее только из одного узла и двух листьев.
  • AdaBoost использует более итеративный подход в том смысле, что он стремится итеративно исправлять ошибки, допущенные предыдущими пнями.

8. Gradient Boost: - Gradient Boost также представляет собой ансамблевый алгоритм, который использует методы повышения для разработки улучшенного предсказателя.

  • В отличие от AdaBoost, который строит пни, Gradient Boost строит деревья, как правило, с 8–32 листьями.
  • Gradient Boost рассматривает проблему повышения как проблему оптимизации, где он использует функцию потерь и пытается минимизировать ошибку. Вот почему это называется градиентным усилением, так как оно основано на градиентном спуске.

9. XG Boost: - XGBoost - один из самых популярных и широко используемых алгоритмов сегодня, потому что он просто настолько мощный.

  • Он похож на Gradient Boost, но имеет несколько дополнительных функций, которые делают его намного сильнее.
  • Newton Boosting - обеспечивает прямой путь к минимумам, чем градиентный спуск, что делает его намного быстрее.
  • Дополнительный параметр рандомизации - уменьшает корреляцию между деревьями, в конечном итоге улучшая силу ансамбля.

10. Light GBM: - Это еще один тип алгоритма повышения, который показал себя быстрее, а иногда и точнее, чем XGBoost.

  • Он использует уникальный метод, называемый односторонней выборкой на основе градиента (GOSS), чтобы отфильтровать экземпляры данных и найти значение разделения.

11. Наивный Байес: - Это алгоритм классификации, используемый для задач двоичной (двухклассовой) и многоклассовой классификации. Он используется, когда выходная переменная дискретна.

  • Как следует из названия, этот алгоритм полностью основан на теореме Байеса. Теорема Байеса гласит, что мы можем вычислить вероятность того, что часть данных принадлежит определенному классу, если даны предварительные знания.
  • P (класс | данные) = (P (данные | класс) * P (класс)) / P (данные)

Пожалуйста, дайте мне знать в разделе комментариев, если я забыл какой-либо другой важный алгоритм машинного обучения. Спасибо за прочтение.

Вы можете связаться со мной по следующему адресу:

  1. Подпишитесь на мой канал YouTube, чтобы увидеть скоро будет видео здесь
  2. Следуйте за мной на Medium
  3. Свяжитесь со мной и свяжитесь со мной в LinkedIn
  4. Станьте участником: - https://techykajal.medium.com/membership

Проверьте также мои другие блоги: