101 алгоритм машинного обучения для науки о данных со шпаргалками

Думайте об этом как о универсальном магазине/словаре/каталоге для ваших алгоритмов машинного обучения. Алгоритмы были разбиты на 9 групп: обнаружение аномалий, изучение правил ассоциации, классификация, кластеризация, уменьшение размеров, ансамбль, нейронные сети, регрессия, регуляризация. В этом посте вы найдете 101 алгоритм машинного обучения, включая полезную инфографику, которая поможет вам понять, когда использовать каждый из них (если он доступен).

101 алгоритм машинного обучения

Наша миссия в Data Science Dojo — сделать науку о данных (в данном случае машинное обучение) доступной для всех. Независимо от того, присоединяетесь ли вы к нашему учебному курсу по науке о данных, читаете наш блог или смотрите наши учебные пособия, мы хотим, чтобы у каждого была возможность изучить науку о данных.

Сказав это, каждый раскрывающийся список аккордеона можно встроить, если вы хотите взять их с собой. Все, что вам нужно сделать, это нажать маленькую кнопку «встроить» в левом нижнем углу и скопировать / вставить iframe. Все, что мы просим, это дать ссылку на этот пост.

Кстати, если у вас возникли проблемы с Medium/TDS, просто переведите браузер в режим инкогнито.

Алгоритмы классификации

Любой из этих алгоритмов классификации можно использовать для построения модели, предсказывающей класс результата для данного набора данных. Наборы данных могут поступать из различных доменов. В зависимости от размерности набора данных, типов атрибутов, разреженности, отсутствующих значений и т. д. один алгоритм может давать более высокую точность прогнозирования, чем большинство других. Кратко обсудим эти алгоритмы. (18)

Классификация
Изменить описаниеcontent.datasciencedojo.com

Регрессионный анализ

Регрессионный анализ — это статистический метод изучения взаимосвязи между двумя или более переменными. Существует множество различных типов регрессионного анализа, несколько алгоритмов из которых можно найти ниже. (20)

Алгоритмы регрессии
Изменить описаниеcontent.datasciencedojo.com

Нейронные сети

Нейронная сеть — это искусственная модель, основанная на человеческом мозге. Эти системы изучают задачи на примере без указания каких-либо конкретных правил. (11)

Алгоритмы нейронной сети
Изменить описаниеcontent.datasciencedojo.com

Обнаружение аномалий

Обнаружение аномалий, также известное как обнаружение выбросов, используется для обнаружения редких или подозрительных событий в ваших данных. Выбросы обычно указывают на проблему или редкое событие. (5)

Обнаружение аномалий
Изменить описаниеcontent.datasciencedojo.com

Уменьшение размерности

С некоторыми проблемами, особенно с классификацией, может быть так много переменных или признаков, что ваши данные трудно визуализировать. Корреляция между вашими функциями создает избыточность, и именно здесь вступает в действие уменьшение размерности. Уменьшение размерности уменьшает количество случайных переменных, с которыми вы работаете. (17)

Алгоритмы уменьшения размерности
Редактировать описаниеcontent.datasciencedojo.com

Ансамбль

Методы ансамблевого обучения — это метаалгоритмы, которые объединяют несколько методов машинного обучения в единую прогностическую модель для повышения общей производительности. (11)

Алгоритмы ансамбля
Изменить описаниеcontent.datasciencedojo.com

Кластеризация

В обучении с учителем мы знаем метки точек данных и их распределение. Однако этикетки не всегда могут быть известны. Кластеризация — это практика присвоения меток неразмеченным данным с использованием существующих в них шаблонов. Кластеризация может быть полупараметрической или вероятностной. (14)

Алгоритмы кластеризации
Изменить описаниеcontent.datasciencedojo.com

Анализ правил ассоциации

Анализ правил ассоциации — это метод, позволяющий выявить, как элементы связаны друг с другом. (2)

Правило ассоциации
Изменить описаниеcontent.datasciencedojo.com

Регуляризация

Регуляризация используется для предотвращения переобучения. Переобучение означает, что алгоритм машинного обучения слишком сильно соответствует набору данных, так что он имеет высокую точность, но плохо работает с невидимыми данными. (3)

Алгоритмы регуляризации
Изменить описаниеcontent.datasciencedojo.com

Шпаргалка по алгоритму Scikit-Learn

Прежде всего, это шпаргалка Scikit-Learn. URL-адрес в заголовке приведет вас к тому же изображению, но будет интерактивным. Мы предлагаем сохранить этот сайт, так как он позволяет запомнить алгоритмы и когда их лучше всего использовать, невероятно просто и легко.

SAS: шпаргалка по алгоритму машинного обучения

Вы также можете найти многие из тех же алгоритмов в шпаргалке по машинному обучению SAS, что и выше. На веб-сайте SAS также есть отличные описания того, как, когда и зачем использовать каждый алгоритм.

Машинное обучение Microsoft Azure: шпаргалка по алгоритму

Шпаргалка Microsoft Azure — самая простая шпаргалка на сегодняшний день. Несмотря на то, что это просто, Microsoft все же смогла упаковать в него массу информации. Microsoft также сделала свою таблицу алгоритмов доступной для скачивания.

Вот и все, 101 алгоритм машинного обучения с шпаргалками, описаниями и учебными пособиями! Мы надеемся, что вы сможете эффективно использовать этот список. Если есть какие-либо алгоритмы, которые, по вашему мнению, следует добавить, оставьте комментарий с алгоритмом и ссылкой на учебник. Спасибо!

Источники

Переиздано с разрешения

101 алгоритм машинного обучения для науки о данных со шпаргалками