11 алгоритмов машинного обучения, которые вы должны знать в 2021 году

Важные алгоритмы машинного обучения в 2021 году

Конечно, за годы работы в области науки о данных произошел большой прогресс. Некоторые новые эффективные алгоритмы были предложены также в ходе различных исследований. Но некоторые основы останутся основой всех продвинутых алгоритмов.

Ниже приведен список таких 11 алгоритмов машинного обучения, которые в основном использовались в области науки о данных и задавались также в интервью по науке о данных.

Линейная регрессия: - это наиболее известный и понятный алгоритм в статистике и машинном обучении. Линейная регрессия - это линейная модель, например, модель, которая предполагает линейную зависимость между входными переменными (x) и единственной выходной переменной (y), что означает, что y можно легко вычислить с использованием линейной зависимости.

Когда есть одна входная переменная (x), уравнение называется простой линейной регрессией.
Когда имеется более одной входной переменной, уравнение называется множественной линейной регрессией.

Уравнение:
y = B0 + B1 * x (где x - входная переменная, y - выходная переменная, а B0 и B1 - коэффициенты)

Линия наилучшего соответствия находится путем минимизации квадратов расстояний между точками и линией наилучшего соответствия, и это называется минимизацией суммы квадратов остатков.

Остаток просто равен прогнозируемому значению минус фактическое значение.

2. Логистическая регрессия: - Логистическая регрессия - это алгоритм классификации, основанный на функции, которая используется в основе метода, логистической функции или сигмоидной функции. Это S-образная кривая, которая используется для прогнозирования двоичного результата (1/0, Да / Нет, Истина / Ложь) с учетом набора независимых переменных.

Это также можно рассматривать как частный случай линейной регрессии, когда переменная результата является категориальной, когда мы используем логарифм шансов в качестве зависимой переменной.
Он предсказывает вероятность возникновения события, подбирая данные для логит-функции.

p(X) = e^(b0 + b1*X) / (1 + e^(b0 + b1*X))

3. K-Nearest Neighbours: - Алгоритм K-ближайших соседей (KNN) - это алгоритм машинного обучения с учителем, который можно использовать для решения задач как классификации, так и регрессии.

Он работает, находя расстояния между новой добавленной точкой данных и точками, уже существующими в двух отдельных классах. Какой бы класс ни получил наибольшее количество голосов, новая точка данных принадлежит этому классу.

Евклидово расстояние (x, xi) = sqrt (sum ((xj - xij) ²))

4. Машины опорных векторов: - Это управляемый алгоритм машинного обучения, который также может использоваться для обеих задач: - классификации и регрессии. тем не менее, он в основном используется в задачах классификации.

SVM найдет гиперплоскость или границу между двумя классами данных, которая максимизируется. Есть и другие плоскости, которые могут разделять два класса, но только гиперплоскость SVM может максимизировать разницу между классами.

B0 + (B1 * X1) + (B2 * X2) = 0, где B1 и B2 определяют наклон линии, а B0 (точку пересечения), найденную алгоритмом обучения. X1 и X2 - две входные переменные.

5. Деревья решений: - Алгоритмы деревьев решений называются CART или деревьями классификации и регрессии. Это блок-схема, подобная древовидной структуре, где каждый внутренний узел обозначает проверку атрибута, каждая ветвь представляет результат проверки, а каждый конечный узел (конечный узел) содержит метку класса.

Оценка Джини дает представление о том, насколько хорошо разделение, по тому, насколько смешаны классы ответов в группах, созданных в результате разделения.

6. Случайный лес: - Случайные леса - это метод коллективного обучения, основанный на деревьях решений.

Случайные леса включают создание нескольких деревьев решений с использованием самонастраиваемых наборов исходных данных и случайный выбор подмножества переменных на каждом шаге дерева решений.
Затем модель выбирает режим всех прогнозов каждого дерева решений (упаковка).

7. AdaBoost: - Адаптивное усиление - это также комплексный алгоритм, который использует методы пакетирования и повышения для разработки улучшенного предиктора.

AdaBoost создает лес из пней, а не деревьев. Пень - это дерево, состоящее только из одного узла и двух листьев.
AdaBoost использует более итеративный подход в том смысле, что он стремится итеративно исправлять ошибки, допущенные предыдущими пнями.

8. Gradient Boost: - Gradient Boost также представляет собой ансамблевый алгоритм, который использует методы повышения для разработки улучшенного предсказателя.

В отличие от AdaBoost, который строит пни, Gradient Boost строит деревья, как правило, с 8–32 листьями.
Gradient Boost рассматривает проблему повышения как проблему оптимизации, где он использует функцию потерь и пытается минимизировать ошибку. Вот почему это называется градиентным усилением, так как оно основано на градиентном спуске.

9. XG Boost: - XGBoost - один из самых популярных и широко используемых алгоритмов сегодня, потому что он просто настолько мощный.

Он похож на Gradient Boost, но имеет несколько дополнительных функций, которые делают его намного сильнее.
Newton Boosting - обеспечивает прямой путь к минимумам, чем градиентный спуск, что делает его намного быстрее.
Дополнительный параметр рандомизации - уменьшает корреляцию между деревьями, в конечном итоге улучшая силу ансамбля.

10. Light GBM: - Это еще один тип алгоритма повышения, который показал себя быстрее, а иногда и точнее, чем XGBoost.

Он использует уникальный метод, называемый односторонней выборкой на основе градиента (GOSS), чтобы отфильтровать экземпляры данных и найти значение разделения.

11. Наивный Байес: - Это алгоритм классификации, используемый для задач двоичной (двухклассовой) и многоклассовой классификации. Он используется, когда выходная переменная дискретна.

Как следует из названия, этот алгоритм полностью основан на теореме Байеса. Теорема Байеса гласит, что мы можем вычислить вероятность того, что часть данных принадлежит определенному классу, если даны предварительные знания.
P (класс | данные) = (P (данные | класс) * P (класс)) / P (данные)

Пожалуйста, дайте мне знать в разделе комментариев, если я забыл какой-либо другой важный алгоритм машинного обучения. Спасибо за прочтение.

Вы можете связаться со мной по следующему адресу:

Подпишитесь на мой канал YouTube, чтобы увидеть скоро будет видео здесь
Следуйте за мной на Medium
Свяжитесь со мной и свяжитесь со мной в LinkedIn
Станьте участником: - https://techykajal.medium.com/membership

Проверьте также мои другие блоги:

15 бесплатных ресурсов данных с открытым исходным кодом для вашего следующего проекта в области науки о данных
Сводный список бесплатных наборов данных, организованных по различным категориям для начинающих и профессионалов в направлении науки о данных .com

8 проектов машинного обучения / искусственного интеллекта, чтобы выделить ваше портфолио
Интересные проектные идеи с исходным кодом и справочными статьями, а также с приложением некоторых исследовательских работ. todatascience.com

11 алгоритмов машинного обучения, которые вы должны знать в 2021 году

Важные алгоритмы машинного обучения в 2021 году

Вопросы по теме