Введение в основы машинного обучения. В этой статье вы сможете узнать о различных алгоритмах обучения без учителя в машинном обучении и о том, как они работают…

Алгоритмы обучения без учителя

Алгоритмы обучения без учителя применяют следующие методы для описания данных:

  • Кластеризация: это исследование данных, используемое для сегментации их на значимые группы (т. е. кластеры) на основе их внутренних шаблонов без предварительного знания учетных данных группы. Учетные данные определяются сходством отдельных объектов данных, а также аспектами их отличия от остальных (что также можно использовать для обнаружения аномалий).
  • Уменьшение размерности: во входящих данных много шума. Алгоритмы машинного обучения используют уменьшение размерности, чтобы удалить этот шум при извлечении соответствующей информации.

Со временем вы столкнетесь с двумя другими типами машинного обучения, которым уделяется все больше и больше внимания, читайте внимательно.

  • Кластеризация K-средних – это неконтролируемый алгоритм машинного обучения. В отличие от традиционных алгоритмов машинного обучения с учителем, K-Means пытается классифицировать данные без предварительного обучения на размеченных данных. После запуска алгоритма и определения групп любые новые данные можно легко отнести к наиболее релевантной группе.

  • T-Distributed Stochastic Neighbor Embedding (t-SNE) – это метод уменьшения размерности, используемый для представления многомерного набора данных в низкоразмерном двух- или трехмерном пространстве, чтобы мы могли его визуализировать. В отличие от других алгоритмов уменьшения размерности, таких как PCA, которые просто максимизируют дисперсию, t-SNE создает сокращенное пространство признаков, в котором сходные выборки моделируются близлежащими точками, а разнородные выборки моделируются удаленными точками с высокой вероятностью.

  • Анализ основных компонентов – это неконтролируемый метод. Основная цель анализа PCA — выявить закономерности в данных; PCA направлен на обнаружение корреляции между переменными. Если существует сильная корреляция между переменными, попытка уменьшить размерность имеет смысл. В двух словах, вот что такое PCA: найти направления максимальной дисперсии в многомерных данных и проецировать их на подпространство меньшего размера, сохраняя при этом большую часть информации. Итак, основные преимущества PCA — это сжатие данных (уменьшение памяти, ускорение обучения) и визуализация.

Ассоциация

Правила ассоциации позволяют устанавливать ассоциации между объектами данных в больших базах данных. Этот неконтролируемый метод предназначен для обнаружения интересных взаимосвязей между переменными в больших базах данных. Например, люди, которые покупают новый дом, чаще всего покупают новую мебель.

Другие примеры:

  • Подгруппа больных раком, сгруппированная по измерениям экспрессии их генов.
  • Группы покупателей на основе их истории просмотров и покупок
  • Группа фильмов по рейтингу кинозрителей

Вывод

Если вы только собираетесь начать свое машинное обучение и хотите учиться с нуля, я буду делать эту серию, которая будет длиться 5–6 минут о машинном обучении и некоторых побочных проектах в конце каждой главы, так что следите за обновлениями и будьте счастливы обучение

Это мое личное исследование, если у вас есть какие-либо комментарии, пожалуйста, свяжитесь со мной.

Добро пожаловать на мою среднюю страницу

Github, LinkedIn, Захра Эльхамрауи, Upwork