Основы алгоритма машинного обучения для начинающих
1. Линейная регрессия
Линейная регрессия так активно использовалась в течение многих десятилетий, и она продолжает находить место в эпоху современной науки о данных и машинного обучения.
Обыкновенные наименьшие квадраты или OLS с таким количеством расширений и фундаментальной статистической базой позволяют заглянуть в мир линейных моделей.
Точные, быстрые, гибкие, статистические и масштабируемые. С другой стороны, линейная регрессия борется со всем нелинейным.
Параметры линейной регрессии:
- Наборы данных: большие и маленькие
- Скорость: высокая
- Простота использования: легко
- Нормализация: нет
- Предиктор: числовой
- Основная проблема: двоичный файл
- Смешанный-Тип: Да
- Отсутствует Обработка данных: да
- Популярность: 50%
2. Логистическая регрессия
Логистическая регрессия, более ориентированная на классификацию, по-прежнему является линейной моделью, которая широко используется сегодня.
По сути, он очень старый, обычно точный, супермасштабируемый, а также выдает статистические вероятностные результаты.
Как и в случае с линейной регрессией, ее самое большое ограничение, вероятно, возникает, когда у вас есть нелинейные наборы данных.
Параметры логистической регрессии:
- Наборы данных: большие и маленькие
- Скорость: нормальная
- Простота использования: обычная
- Нормализация: нет
- Предиктор: числовой или категориальный
- Основная проблема: многоклассовая или бинарная
- Смешанный-Тип: Да
- Обработка отсутствующих данных: да
- Популярность: 75%
3. снн
kNN настолько прост для понимания. В этом вся прелесть! Когда вам нужен интуитивно понятный и точный алгоритм машинного обучения без всяких наворотов, k Nearest Neighbours готов стать вашим лучшим помощником.
Поскольку он настолько уникален и особенный, это также очень приятный факт, что он может процветать как при классификации, так и при регрессии. Ура!
Параметры K-ближайших соседей:
- Наборы данных: большие и маленькие
- Скорость: низкая
- Простота использования: легко
- Нормализация: Да
- Предиктор: числовой
- Основная проблема: многоклассовая или бинарная
- Смешанный-Тип: нет
- Обработка отсутствующих данных: нет
- Популярность: 70%
4. Наивный Байес
Кто бы мог подумать, что такая старая базовая мысль станет такой огромной, буквально изменит/создаст поле статистики и все еще будет актуальной спустя 200 с лишним лет. Наивный Байес не так универсален, но остается очень интересной концепцией.
Параметры Наивного Байеса:
- Размер данных: большой и маленький
- Скорость: высокая
- Простота использования: легко
- Нормализация: нет
- Предиктор: Категориальный
- Основная проблема: многоклассовая или бинарная
- Смешанный-Тип: нет
- Обработка отсутствующих данных: да
- Популярность: 70%
5. Деревья решений
Один из старейших алгоритмов, которые когда-либо существовали, также деревья решений составляют строительные блоки алгоритмов случайного леса.
Деревья принятия решений по параметрам:
- Наборы данных: большие и маленькие
- Скорость: высокая
- Простота использования: легко
- Нормализация: нет
- Предиктор: числовой или категориальный
- Основная проблема: многоклассовая или бинарная
- Смешанный-Тип: Да
- Обработка отсутствующих данных: да
- Популярность: 45%
6. Случайный лес
Практичный, мощный, эффективный и универсальный. Неудивительно, почему случайные леса так популярны и широко используются.
Параметры случайного леса:
- Размер данных: большой и маленький
- Скорость: нормальная
- Простота использования: обычная
- Нормализация: нет
- Предиктор: числовой или категориальный
- Основная проблема: многоклассовая или бинарная
- Смешанный тип: да
- Обработка отсутствующих данных: да
- Популярность: 80%
7. СВМ
Если вам нравится ручная настройка и множество технических гиперпараметров, вам может подойти алгоритм SVM. Они поставляются со встроенной реализацией ядра и пользуются большой популярностью в последние годы.
Они отлично подходят для расширения ваших знаний в области технических данных и анализа и обещают широкий спектр приложений для классификации и регрессии, хотя иногда за счет вычислительных ресурсов.
параметры машины опорных векторов:
- Размер данных: маленький
- Скорость: нормальная
- Простота использования: сложно
- Нормализация: нет
- Предиктор: числовой или категориальный
- Основная проблема: двоичный файл
- Смешанный тип: Нет
- Обработка отсутствующих данных: нет
- Популярность: 75%
8. К-средние
Как самый популярный алгоритм кластеризации, K-Means используется во многих неконтролируемых проектах машинного обучения для извлечения смысла из, казалось бы, хаотичных неразмеченных данных.
Параметры кластеризации k-средних:
- Наборы данных: большие и маленькие
- Скорость: нормальная
- Простота использования: обычный
- Нормализация: Да
- Предиктор:числовой
- Основная проблема:многоклассовая или бинарная
- Смешанный тип:нет
- Обработка отсутствующих данных: нет
- Популярность: 70%