Публикации по теме 'clustering'
Освоение машинного обучения: изучение набора данных IRIS для прогнозного анализа
Вводный курс для энтузиастов машинного обучения
Начало пути к машинному обучению может быть как захватывающим, так и ошеломляющим, особенно когда вы сталкиваетесь с новым инструментом или языком программирования. Тем не менее, начав с небольшого проекта, вы сможете заложить прочную основу для понимания основ.
В этом руководстве мы погрузимся в мир машинного обучения, решая классическую задачу классификации цветов ириса с помощью R. Набор данных ириса предлагает идеальную отправную..
Код K означает кластеризацию анализа главных компонентов
import pandas as pd
data=pd.read_csv('iris.csv')
data.head(5)
from collections import Counter
Counter(data.variety)
Counter({'Setosa': 50, 'Versicolor': 50, 'Virginica': 50})
data.shape
(150, 5)
X=data.iloc[:,:-1]
from sklearn.cluster import KMeans
model=KMeans(n_clusters=3,random_state=10)
model.fit(X)
model.labels_
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..
Неконтролируемое машинное обучение: что?, где? и как?
Неконтролируемое машинное обучение — это тип машинного обучения, при котором модель обучается на неразмеченных данных, а это означает, что правильный результат неизвестен для каждого входа. Модель должна самостоятельно находить базовую структуру или закономерности в данных. Основная цель неконтролируемого обучения — обнаружить скрытые закономерности или группировки в данных без каких-либо предварительных знаний о результатах.
Существует два основных типа обучения без учителя:..
«Что такое решатель?»
Эта статья написана, чтобы ответить на вопрос, заданный моими коллегами из производственных и бизнес-команд «Что такое решатель?» Таким образом, в этой статье основное внимание уделяется объяснению понятий «алгоритм», «решатель» и «программная библиотека», а также различия между ними.
Ежедневная задача: сгруппировать точки доставки
Рассмотрим одну из частых задач, возникающих в Colisweb. Учитывая большое количество точек доставки с GPS-координатами и ограниченное количество курьеров,..
Механика кластеризации аффинного распространения
Углубленное изучение и демонстрация Python
Распространение сходства — это алгоритм кластеризации, который идентифицирует набор образцов среди точек данных и формирует кластеры вокруг этих образцов. В отличие от других методов кластеризации, которые требуют от пользователя заранее указать количество кластеров, он автоматически определяет количество кластеров на основе данных. Здесь вы можете найти оригинальную бумагу .
Образцы — это конкретные точки данных, которые служат..
Кластеризация с помощью K-средних: просто, но эффективно
Кластерный анализ - это многомерный статистический метод, который группирует наблюдения на основе некоторых их характеристик или переменных, которыми они описываются, например:
Примеры внутри кластера аналогичны (в данном случае мы говорим о высоком внутриклассовом сходстве). Примеры в разных кластерах разные (в данном случае мы говорим о низком межклассовом сходстве)
Измеряя сходство / несходство, мы можем обнаружить неявные закономерности в данных неконтролируемым образом ,..
Машинное обучение: сбалансированный классификатор пакетов
Машинное обучение: сбалансированный классификатор пакетов
Классификатор сбалансированного мешка — это ансамблевый метод, предназначенный для решения проблемы несбалансированных данных в машинном обучении.
Он сочетает в себе принципы объединения и случайной недостаточной выборки для балансировки распределения классов.
1. РАБОТА
Как и традиционный пакетирование, сбалансированное пакетирование создает ансамбль классификаторов путем обучения нескольких базовых классификаторов на..