Интуитивно понятные объяснения самых популярных моделей машинного обучения

Не забудьте подписаться здесь, чтобы не пропустить новую статью о руководствах по науке о данных, хитростях и советах, жизненных уроках и многом другом!

В прошлом году я написал статью под названием Все алгоритмы машинного обучения, которые вы должны знать в 2021 году, так почему же я пишу еще одну для 2022 года? Неужели за последний год появилось так много новых алгоритмов?

Ну нет.

Но в этом году я хотел структурировать эту статью по-другому. Вместо того, чтобы перечислять все существующие алгоритмы машинного обучения, я хотел предоставить несколько типов моделей машинного обучения и наиболее широко используемые модели для каждого типа.

Почему я это делаю?

  1. Приложение. Знания бесполезны, если их нельзя ни к чему применить. Предоставляя общие категории моделей, вы будете лучше понимать какие проблемы вы можете решить, а не какие модели существуют.
  2. Релевантность. Правда в том, что не все модели машинного обучения актуальны. Вы сразу увидите, что традиционные алгоритмы, такие как Наивный Байес и SVM, не включены в эту статью просто потому, что они превосходят усиленные алгоритмы.
  3. Усвояемость. Я хотел сделать это как можно более легким для восприятия. В Интернете есть тысячи ресурсов, которые могут научить вас, как реализовать модели, о которых я собираюсь рассказать. Итак, я собираюсь больше сосредоточиться на том, КОГДА использовать каждый тип модели.

С учетом сказанного давайте рассмотрим 5 наиболее важных типов моделей машинного обучения:

  1. Алгоритмы обучения ансамбля
  2. Объяснительные алгоритмы
  3. Алгоритмы кластеризации
  4. Алгоритмы уменьшения размерности
  5. Алгоритмы подобия

Если вы хотите протестировать эти алгоритмы машинного обучения, ознакомьтесь с Saturn Cloud, масштабируемой и гибкой платформой для анализа данных с бесплатным и корпоративным уровнями.

1. Алгоритмы обучения ансамбля (Random ForestsXGBoost, LightGBM, CatBoost)

Что такое ансамблевые алгоритмы обучения?

Чтобы понять, что такое алгоритмы ансамблевого обучения, вам сначала нужно узнать, что такое ансамблевое обучение. Обучение ансамблем – это метод, при котором несколько моделей используются одновременно для достижения более высокой производительности, чем одна модель.

Концептуально рассмотрим следующую аналогию:

Представьте, если бы одному ученику пришлось решать математическую задачу, а не всему классу. В классе учащиеся могут совместно решать задачу, проверяя ответы друг друга, и единогласно выбрать один ответ. С другой стороны, у человека нет этой привилегии — нет никого, кто мог бы подтвердить его/ее ответ, если он неверен.

Итак, класс с несколькими учениками подобен ансамблевому алгоритму обучения, в котором несколько меньших алгоритмов работают вместе, чтобы сформулировать окончательный ответ.

Если вы хотите узнать больше об обучении ансамблем, ознакомьтесь с этой статьей:



Когда они полезны?

Алгоритмы ансамблевого обучения наиболее полезны для задач регрессии и классификации или задач обучения с учителем. Благодаря своей природе они превосходят все традиционные алгоритмы машинного обучения, такие как наивный байесовский алгоритм, машины опорных векторов и деревья решений.

Алгоритмы

Если вы хотите проверить свои навыки машинного обучения, попробуйте Saturn Cloud, масштабируемую и гибкую платформу для анализа данных с бесплатным и корпоративным уровнями.

2. Объяснительные алгоритмы (линейная регрессия, логистическая регрессия, SHAP, LIME)

Что такое объяснительные алгоритмы?

Объяснительные алгоритмы позволяют нам идентифицировать и понимать переменные, которые имеют статистически значимую связь с результатом. Таким образом, вместо того, чтобы создавать модель для предсказания значений переменной ответа, мы можем создавать объяснительные модели, чтобы понимать отношения между переменными в модели.

С точки зрения регрессии большое внимание уделяется статистически значимым переменным. Почему? Почти всегда вы будете работать с выборкой данных, которая является подмножеством всего населения. Чтобы делать какие-либо выводы о генеральной совокупности по выборке, важно убедиться, что существует достаточно значительности, чтобы сделать уверенное предположение.

В последнее время также появились два популярных метода, SHAP и LIME, которые используются для интерпретации моделей машинного обучения.

Когда они полезны?

Объяснительные модели полезны, когда вы хотите понять, «почему» было принято решение, или когда вы хотите понять, «как» две или более переменных связаны друг с другом.

На практике способность объяснить, что делает ваша модель машинного обучения, так же важна, как и производительность самой модели машинного обучения. Если вы не можете объяснить, как работает модель, никто не будет ей доверять и никто не будет ее использовать.

Алгоритмы

Традиционные объяснительные модели, основанные на проверке гипотез:

  • Линейная регрессия
  • Логистическая регрессия

Алгоритмы для объяснения моделей машинного обучения:

Не забудьте подписаться здесь или на мой эксклюзивный информационный бюллетень, чтобы не пропустить новую статью о руководствах по науке о данных, хитростях и советах, жизненных уроках и многом другом!

3. Алгоритмы кластеризации (k-Means, иерархическая кластеризация)

Что такое алгоритмы кластеризации?

Алгоритмы кластеризации используются для проведения кластерного анализа, который представляет собой неконтролируемую обучающую задачу, включающую группировку данных в кластеры. В отличие от обучения с учителем, где целевая переменная известна, в кластерном анализе нет целевой переменной.

Когда они полезны?

Кластеризация особенно полезна, когда вы хотите обнаружить естественные закономерности и тенденции в ваших данных. Кластерный анализ очень часто проводится на этапе EDA, чтобы получить больше информации о данных.

Точно так же кластеризация позволяет вам идентифицировать разные сегменты в наборе данных на основе разных переменных. Одним из наиболее распространенных типов кластерной сегментации является сегментация пользователей/клиентов.

Алгоритмы

Двумя наиболее распространенными алгоритмами кластеризации являются кластеризация k-средних и иерархическая кластеризация, хотя существует гораздо больше:

4. Алгоритмы уменьшения размерности (PCA, LDA)

Что такое алгоритмы уменьшения размерности?

Алгоритмы уменьшения размерности относятся к методам, которые сокращают количество входных переменных (или переменных признаков) в наборе данных. Уменьшение размерности в основном используется для устранения проклятия размерности, явления, которое гласит: «По мере увеличения размерности (количества входных переменных) объем пространства растет экспоненциально, что приводит к разреженным данным.

Когда они полезны?

Методы уменьшения размерности полезны во многих случаях:

  1. Они чрезвычайно полезны, когда у вас есть сотни или даже тысячи объектов в наборе данных, и вам нужно выбрать несколько.
  2. Они полезны, когда ваши модели ML переобучают данные, подразумевая, что вам нужно уменьшить количество входных функций.

Алгоритмы

Ниже приведены два наиболее распространенных алгоритма уменьшения размерности:

5. Алгоритмы подобия (KNN, евклидово расстояние, косинус, Левенштейн, Яро-Винклер, SVD и т. д.)

Что такое алгоритмы подобия?

Алгоритмы подобия вычисляют подобие пар записей/узлов/точек данных/текста. Существуют алгоритмы подобия, которые сравнивают расстояние между двумя точками данных, например евклидово расстояние, а также алгоритмы подобия, вычисляющие сходство текста, например алгоритм Левенштейна.

Когда они полезны?

Алгоритмы подобия можно использовать в различных приложениях, но особенно они полезны для рекомендаций.

  • Какие статьи Medium должен порекомендовать вам на основе того, что вы ранее читали?
  • Какие ингредиенты можно использовать вместо черники?
  • Какую песню Spotify должен порекомендовать на основе того, какие песни вам уже понравились?
  • Какие продукты следует рекомендовать Amazon на основе вашей истории заказов?

Это всего лишь несколько из многих примеров, когда алгоритмы подобия и рекомендации используются в нашей повседневной жизни.

Алгоритмы

Ниже приведен неполный список некоторых алгоритмов подобия. Если вы хотите прочитать больше о дистанционных алгоритмах, ознакомьтесь с этой статьей. Точно так же, если вы хотите прочитать больше об алгоритмах подобия строк, ознакомьтесь с этой статьей.

Если вы хотите проверить свои навыки машинного обучения, попробуйте Saturn Cloud, масштабируемую и гибкую платформу для анализа данных с бесплатным и корпоративным уровнями.

Спасибо за прочтение!

Если вам понравилось, не забудьте подписаться, чтобы не пропустить новую статью о руководствах по науке о данных, хитростях и советах, жизненных уроках и многом другом!

Прочитав это, вы не только получите лучшее представление о различных моделях машинного обучения, но также узнаете, когда эти модели уместно использовать.

Теперь отправляйтесь туда и посмотрите, какие проблемы вы можете решить с помощью машинного обучения!

Как всегда, я желаю вам всего наилучшего в ваших начинаниях в области науки о данных. Если вам понравилась эта статья, я был бы признателен, если бы вы подписались на меня. :)

Не знаете, что читать дальше? Я подобрал для вас еще одну статью:



и еще один:



Теренс Шин