Основы алгоритма машинного обучения для начинающих

1. Линейная регрессия

Линейная регрессия так активно использовалась в течение многих десятилетий, и она продолжает находить место в эпоху современной науки о данных и машинного обучения.

Обыкновенные наименьшие квадраты или OLS с таким количеством расширений и фундаментальной статистической базой позволяют заглянуть в мир линейных моделей.

Точные, быстрые, гибкие, статистические и масштабируемые. С другой стороны, линейная регрессия борется со всем нелинейным.

Параметры линейной регрессии:

  • Наборы данных: большие и маленькие
  • Скорость: высокая
  • Простота использования: легко
  • Нормализация: нет
  • Предиктор: числовой
  • Основная проблема: двоичный файл
  • Смешанный-Тип: Да
  • Отсутствует Обработка данных: да
  • Популярность: 50%

2. Логистическая регрессия

Логистическая регрессия, более ориентированная на классификацию, по-прежнему является линейной моделью, которая широко используется сегодня.

По сути, он очень старый, обычно точный, супермасштабируемый, а также выдает статистические вероятностные результаты.

Как и в случае с линейной регрессией, ее самое большое ограничение, вероятно, возникает, когда у вас есть нелинейные наборы данных.

Параметры логистической регрессии:

  • Наборы данных: большие и маленькие
  • Скорость: нормальная
  • Простота использования: обычная
  • Нормализация: нет
  • Предиктор: числовой или категориальный
  • Основная проблема: многоклассовая или бинарная
  • Смешанный-Тип: Да
  • Обработка отсутствующих данных: да
  • Популярность: 75%

3. снн

kNN настолько прост для понимания. В этом вся прелесть! Когда вам нужен интуитивно понятный и точный алгоритм машинного обучения без всяких наворотов, k Nearest Neighbours готов стать вашим лучшим помощником.

Поскольку он настолько уникален и особенный, это также очень приятный факт, что он может процветать как при классификации, так и при регрессии. Ура!

Параметры K-ближайших соседей:

  • Наборы данных: большие и маленькие
  • Скорость: низкая
  • Простота использования: легко
  • Нормализация: Да
  • Предиктор: числовой
  • Основная проблема: многоклассовая или бинарная
  • Смешанный-Тип: нет
  • Обработка отсутствующих данных: нет
  • Популярность: 70%

4. Наивный Байес

Кто бы мог подумать, что такая старая базовая мысль станет такой огромной, буквально изменит/создаст поле статистики и все еще будет актуальной спустя 200 с лишним лет. Наивный Байес не так универсален, но остается очень интересной концепцией.

Параметры Наивного Байеса:

  • Размер данных: большой и маленький
  • Скорость: высокая
  • Простота использования: легко
  • Нормализация: нет
  • Предиктор: Категориальный
  • Основная проблема: многоклассовая или бинарная
  • Смешанный-Тип: нет
  • Обработка отсутствующих данных: да
  • Популярность: 70%

5. Деревья решений

Один из старейших алгоритмов, которые когда-либо существовали, также деревья решений составляют строительные блоки алгоритмов случайного леса.

Деревья принятия решений по параметрам:

  • Наборы данных: большие и маленькие
  • Скорость: высокая
  • Простота использования: легко
  • Нормализация: нет
  • Предиктор: числовой или категориальный
  • Основная проблема: многоклассовая или бинарная
  • Смешанный-Тип: Да
  • Обработка отсутствующих данных: да
  • Популярность: 45%

6. Случайный лес

Практичный, мощный, эффективный и универсальный. Неудивительно, почему случайные леса так популярны и широко используются.

Параметры случайного леса:

  • Размер данных: большой и маленький
  • Скорость: нормальная
  • Простота использования: обычная
  • Нормализация: нет
  • Предиктор: числовой или категориальный
  • Основная проблема: многоклассовая или бинарная
  • Смешанный тип: да
  • Обработка отсутствующих данных: да
  • Популярность: 80%

7. СВМ

Если вам нравится ручная настройка и множество технических гиперпараметров, вам может подойти алгоритм SVM. Они поставляются со встроенной реализацией ядра и пользуются большой популярностью в последние годы.

Они отлично подходят для расширения ваших знаний в области технических данных и анализа и обещают широкий спектр приложений для классификации и регрессии, хотя иногда за счет вычислительных ресурсов.

параметры машины опорных векторов:

  • Размер данных: маленький
  • Скорость: нормальная
  • Простота использования: сложно
  • Нормализация: нет
  • Предиктор: числовой или категориальный
  • Основная проблема: двоичный файл
  • Смешанный тип: Нет
  • Обработка отсутствующих данных: нет
  • Популярность: 75%

8. К-средние

Как самый популярный алгоритм кластеризации, K-Means используется во многих неконтролируемых проектах машинного обучения для извлечения смысла из, казалось бы, хаотичных неразмеченных данных.

Параметры кластеризации k-средних:

  • Наборы данных: большие и маленькие
  • Скорость: нормальная
  • Простота использования: обычный
  • Нормализация: Да
  • Предиктор:числовой
  • Основная проблема:многоклассовая или бинарная
  • Смешанный тип:нет
  • Обработка отсутствующих данных: нет
  • Популярность: 70%