Публикации по теме 'clustering'


PCA и NMF: БЫСТРОЕ РУКОВОДСТВО.
PCA и NMF: БЫСТРОЕ РУКОВОДСТВО. Что такое PCA? Это метод уменьшения размеров. Это означает, что, учитывая набор данных с X функциями, он может уменьшить его до менее чем X функций, скажем, функций X-n, вновь созданные функции называются основными компонентами. Интуиция или цель здесь состоит в том, чтобы иметь N основных компонентов, которые могут объяснить дисперсию в наборе данных. Во-вторых, PCA выполняет декорреляцию и показывает нам направление дисперсии! PCA сообщает нам..

Построение собственной модели в Scikit-Learn
Scikit-Learn невероятен. Он позволяет своим пользователям использовать практически любую модель машинного обучения, о которой вы только можете подумать, а также многие из них, о которых вы, возможно, даже не слышали! Всего в двух строчках кода! Однако в нем нет всего . Например, нигде нет порядковой регрессии. А его возможности глубокого обучения… отсутствуют. Но кого это волнует? Вы можете найти это в другом месте, верно? Правда. Но! Scikit-Learn - это не просто моделирование...

Демистифицируем H2O.ai | Обзор
Вступление H2O.ai - это платформа машинного обучения с открытым исходным кодом, которая в последнее время набирает обороты и по уважительным причинам. H2O поддерживает наиболее широко используемые алгоритмы статистического и машинного обучения, обобщенные линейные модели, глубокое обучение и многое другое. Это делает вычисления чрезвычайно быстрыми и эффективными. Суть платформы H2O основана на распределенных вычислениях в памяти . По сути, это означает, что все вычисления,..

Сочетание скорости и масштабирования для ускорения K-средних в RAPIDS cuML
Альберт Эйнштейн однажды сказал: Воображение важнее знаний. Знания ограничены; воображение окружает мир . Хотя извлечение знаний необходимо для получения мудрости в любой научной дисциплине, именно получение ценных идей из наших данных ведет нас к пониманию. По мере того, как наборы данных становились все больше и больше, реальность вычислительного времени затрудняла воображение и интуицию специалистов по обработке данных. Благодаря RAPIDS специалист по данным получает доступ..

Кластеризация. Эвристика на K и как бороться с шумом
Неконтролируемое обучение Кластеризация. Эвристика на K и как бороться с шумом Кластеризация — это широко известный метод обучения без учителя, позволяющий находить неявную структуру в наборе данных без явных указаний, что искать. Существует множество алгоритмов для выполнения этой задачи, но они основаны на разных методах и поэтому не дают одинаковых результатов. Затем цель состоит в том, чтобы создать K групп или кластеров точек (каждый элемент из нашего набора данных),..

Машинное обучение (кластеризация kmeans) в SparkML против AWS SageMaker - My Two Cents
Машинное обучение, способность учиться на данных, было одним из самых успешных и разрушительных вариантов использования больших данных. В сфере данных и аналитики у каждого есть доступ к бесчисленному набору инструментов для решения задач машинного обучения различной природы и сложности. Однако, когда кто-то работает с данными в масштабе, обычно традиционные библиотеки машинного обучения на таких языках, как R и Python (например, pandas, scikit-learn), не работают, поскольку они..

Самый распространенный алгоритм кластеризации для науки о данных и их код
При обучении с учителем мы знаем названия точек данных и их распределение. Однако ярлыки не всегда могут быть известны. Кластеризация - это практика присвоения меток немаркированным данным с использованием существующих в них шаблонов. Кластеризация может быть полупараметрической или вероятностной. 1. Кластеризация K-средних: Кластеризация K-средних - это итерационный алгоритм, который начинается с k случайных чисел, используемых в качестве средних значений для определения кластеров...