Лучший алгоритм машинного обучения

Основы алгоритма машинного обучения для начинающих

1. Линейная регрессия

Линейная регрессия так активно использовалась в течение многих десятилетий, и она продолжает находить место в эпоху современной науки о данных и машинного обучения.

Обыкновенные наименьшие квадраты или OLS с таким количеством расширений и фундаментальной статистической базой позволяют заглянуть в мир линейных моделей.

Точные, быстрые, гибкие, статистические и масштабируемые. С другой стороны, линейная регрессия борется со всем нелинейным.

Параметры линейной регрессии:

Наборы данных: большие и маленькие
Скорость: высокая
Простота использования: легко
Нормализация: нет
Предиктор: числовой
Основная проблема: двоичный файл
Смешанный-Тип: Да
Отсутствует Обработка данных: да
Популярность: 50%

2. Логистическая регрессия

Логистическая регрессия, более ориентированная на классификацию, по-прежнему является линейной моделью, которая широко используется сегодня.

По сути, он очень старый, обычно точный, супермасштабируемый, а также выдает статистические вероятностные результаты.

Как и в случае с линейной регрессией, ее самое большое ограничение, вероятно, возникает, когда у вас есть нелинейные наборы данных.

Параметры логистической регрессии:

Наборы данных: большие и маленькие
Скорость: нормальная
Простота использования: обычная
Нормализация: нет
Предиктор: числовой или категориальный
Основная проблема: многоклассовая или бинарная
Смешанный-Тип: Да
Обработка отсутствующих данных: да
Популярность: 75%

3. снн

kNN настолько прост для понимания. В этом вся прелесть! Когда вам нужен интуитивно понятный и точный алгоритм машинного обучения без всяких наворотов, k Nearest Neighbours готов стать вашим лучшим помощником.

Поскольку он настолько уникален и особенный, это также очень приятный факт, что он может процветать как при классификации, так и при регрессии. Ура!

Параметры K-ближайших соседей:

Наборы данных: большие и маленькие
Скорость: низкая
Простота использования: легко
Нормализация: Да
Предиктор: числовой
Основная проблема: многоклассовая или бинарная
Смешанный-Тип: нет
Обработка отсутствующих данных: нет
Популярность: 70%

4. Наивный Байес

Кто бы мог подумать, что такая старая базовая мысль станет такой огромной, буквально изменит/создаст поле статистики и все еще будет актуальной спустя 200 с лишним лет. Наивный Байес не так универсален, но остается очень интересной концепцией.

Параметры Наивного Байеса:

Размер данных: большой и маленький
Скорость: высокая
Простота использования: легко
Нормализация: нет
Предиктор: Категориальный
Основная проблема: многоклассовая или бинарная
Смешанный-Тип: нет
Обработка отсутствующих данных: да
Популярность: 70%

5. Деревья решений

Один из старейших алгоритмов, которые когда-либо существовали, также деревья решений составляют строительные блоки алгоритмов случайного леса.

Деревья принятия решений по параметрам:

Наборы данных: большие и маленькие
Скорость: высокая
Простота использования: легко
Нормализация: нет
Предиктор: числовой или категориальный
Основная проблема: многоклассовая или бинарная
Смешанный-Тип: Да
Обработка отсутствующих данных: да
Популярность: 45%

6. Случайный лес

Практичный, мощный, эффективный и универсальный. Неудивительно, почему случайные леса так популярны и широко используются.

Параметры случайного леса:

Размер данных: большой и маленький
Скорость: нормальная
Простота использования: обычная
Нормализация: нет
Предиктор: числовой или категориальный
Основная проблема: многоклассовая или бинарная
Смешанный тип: да
Обработка отсутствующих данных: да
Популярность: 80%

7. СВМ

Если вам нравится ручная настройка и множество технических гиперпараметров, вам может подойти алгоритм SVM. Они поставляются со встроенной реализацией ядра и пользуются большой популярностью в последние годы.

Они отлично подходят для расширения ваших знаний в области технических данных и анализа и обещают широкий спектр приложений для классификации и регрессии, хотя иногда за счет вычислительных ресурсов.

параметры машины опорных векторов:

Размер данных: маленький
Скорость: нормальная
Простота использования: сложно
Нормализация: нет
Предиктор: числовой или категориальный
Основная проблема: двоичный файл
Смешанный тип: Нет
Обработка отсутствующих данных: нет
Популярность: 75%

8. К-средние

Как самый популярный алгоритм кластеризации, K-Means используется во многих неконтролируемых проектах машинного обучения для извлечения смысла из, казалось бы, хаотичных неразмеченных данных.

Параметры кластеризации k-средних:

Наборы данных: большие и маленькие
Скорость: нормальная
Простота использования: обычный
Нормализация: Да
Предиктор:числовой
Основная проблема:многоклассовая или бинарная
Смешанный тип:нет
Обработка отсутствующих данных: нет
Популярность: 70%