Публикации по теме 'clustering'
PCA и NMF: БЫСТРОЕ РУКОВОДСТВО.
PCA и NMF: БЫСТРОЕ РУКОВОДСТВО.
Что такое PCA? Это метод уменьшения размеров. Это означает, что, учитывая набор данных с X функциями, он может уменьшить его до менее чем X функций, скажем, функций X-n, вновь созданные функции называются основными компонентами. Интуиция или цель здесь состоит в том, чтобы иметь N основных компонентов, которые могут объяснить дисперсию в наборе данных.
Во-вторых, PCA выполняет декорреляцию и показывает нам направление дисперсии! PCA сообщает нам..
Построение собственной модели в Scikit-Learn
Scikit-Learn невероятен. Он позволяет своим пользователям использовать практически любую модель машинного обучения, о которой вы только можете подумать, а также многие из них, о которых вы, возможно, даже не слышали! Всего в двух строчках кода!
Однако в нем нет всего . Например, нигде нет порядковой регрессии. А его возможности глубокого обучения… отсутствуют. Но кого это волнует? Вы можете найти это в другом месте, верно?
Правда. Но! Scikit-Learn - это не просто моделирование...
Демистифицируем H2O.ai | Обзор
Вступление
H2O.ai - это платформа машинного обучения с открытым исходным кодом, которая в последнее время набирает обороты и по уважительным причинам.
H2O поддерживает наиболее широко используемые алгоритмы статистического и машинного обучения, обобщенные линейные модели, глубокое обучение и многое другое. Это делает вычисления чрезвычайно быстрыми и эффективными.
Суть платформы H2O основана на распределенных вычислениях в памяти . По сути, это означает, что все вычисления,..
Сочетание скорости и масштабирования для ускорения K-средних в RAPIDS cuML
Альберт Эйнштейн однажды сказал: Воображение важнее знаний. Знания ограничены; воображение окружает мир . Хотя извлечение знаний необходимо для получения мудрости в любой научной дисциплине, именно получение ценных идей из наших данных ведет нас к пониманию.
По мере того, как наборы данных становились все больше и больше, реальность вычислительного времени затрудняла воображение и интуицию специалистов по обработке данных. Благодаря RAPIDS специалист по данным получает доступ..
Кластеризация. Эвристика на K и как бороться с шумом
Неконтролируемое обучение
Кластеризация. Эвристика на K и как бороться с шумом
Кластеризация — это широко известный метод обучения без учителя, позволяющий находить неявную структуру в наборе данных без явных указаний, что искать.
Существует множество алгоритмов для выполнения этой задачи, но они основаны на разных методах и поэтому не дают одинаковых результатов.
Затем цель состоит в том, чтобы создать K групп или кластеров точек (каждый элемент из нашего набора данных),..
Машинное обучение (кластеризация kmeans) в SparkML против AWS SageMaker - My Two Cents
Машинное обучение, способность учиться на данных, было одним из самых успешных и разрушительных вариантов использования больших данных. В сфере данных и аналитики у каждого есть доступ к бесчисленному набору инструментов для решения задач машинного обучения различной природы и сложности.
Однако, когда кто-то работает с данными в масштабе, обычно традиционные библиотеки машинного обучения на таких языках, как R и Python (например, pandas, scikit-learn), не работают, поскольку они..
Самый распространенный алгоритм кластеризации для науки о данных и их код
При обучении с учителем мы знаем названия точек данных и их распределение. Однако ярлыки не всегда могут быть известны. Кластеризация - это практика присвоения меток немаркированным данным с использованием существующих в них шаблонов. Кластеризация может быть полупараметрической или вероятностной.
1. Кластеризация K-средних:
Кластеризация K-средних - это итерационный алгоритм, который начинается с k случайных чисел, используемых в качестве средних значений для определения кластеров...