Публикации по теме clustering

Публикации по теме 'clustering'

Как понять результаты кластеризации

Я работаю со многими клиентами по всему миру над реализацией различных проектов в области науки о данных. Время от времени клиенты хотят использовать кластеризацию - и я стараюсь этого избегать. Я следую простому правилу: Если вы можете пойти под присмотром, идите под присмотром. Причина этого проста. У каждого анализа есть гиперпараметры. Это необходимо определить. В контролируемых случаях довольно просто, на что оптимизировать: на ценность для бизнеса. В неконтролируемых..

k-mediods

Наше начало с неконтролируемым обучением было через KNN (K ближайший сосед) , который является самым популярным из всех. Вы можете прочитать это здесь". Вот его уточнение, ниже приведен алгоритм для PAM (разделение вокруг медиодов). Этап сборки : Выберите k объектов, чтобы стать медоидами, или, если эти объекты были предоставлены, используйте их как медоиды; Вычислить матрицу несходства Назначьте каждое наблюдение ближайшему медоиду; Фаза обмена : 4. Для каждого кластера..

Скрытое распределение Дирихле для начинающих: интуиция высокого уровня

Как следует из названия, в отличие от других сообщений о машинном обучении, этот не будет сложным занятием по математике, вращающимся вокруг кучи текста. Теперь, когда вы здесь, я предполагаю, что вы изо всех сил пытаетесь работать с большим объемом текстовых данных и хотите изучить множество алгоритмов обработки текста. Начнем с того, что такое алгоритм LDA. Скрытое распределение Дирихле (LDA) - это генеративная вероятностная модель для набора документов, которые представлены в виде..

Старые добрые к-средние с изюминкой

Мы действительно знаем все о K-средних? Кластеризация не новость для машинного обучения, но она определенно никогда не устареет. Группировка точек данных со схожими характеристиками в кластеры без знания их соответствующих меток или какой-либо другой предварительной информации, если на то пошло, звучит для меня довольно круто. Давайте углубимся в один из самых фундаментальных и наиболее часто используемых алгоритмов, который находится под капотом кластеризации; К-средства...

Анализ окрестностей Мумбаи

Введение Эта статья основана на моем последнем проекте курса IBM Data Science Professional. Мумбаи, город мечты, также является финансовой столицей Индии. Кто пробовал искать дома в городе, тот знает, насколько это сложная и мучительная задача. Это также верно для людей, которые хотят использовать различные предпринимательские возможности на уже насыщенных рынках города. Наша цель в этой статье — проанализировать и сгруппировать различные районы города Мумбаи на основе множества..

Пошаговый подход с использованием K-Means Clustering с использованием SAS

Здравствуйте, любители данных. Несколько дней назад я изучал проекты, которыми занимался за более чем 9 лет работы в области аналитики и статистического моделирования. Я нашел один из интересных проектов одной из моих предыдущих организаций — Сегментация . Я использовал кластеризацию K-средних для сегментации домохозяйств, продуктов и т. д. 7 лет назад. Здесь, в этой статье, я пытаюсь с нуля объяснить алгоритм кластеризации K-Means и его реализацию с использованием SAS. Отказ от..

Кластеризация данных об энергии от интеллектуальных счетчиков

Итак, вас интересует анализ данных интеллектуальных счетчиков? Один из важных анализов, который вы можете сделать, - это сегментация потребителей с помощью кластеризации временных рядов спроса. В дальнейшем это может быть использовано для планирования сети, детального нацеливания на потребителей при реагировании на спрос или программ повышения энергоэффективности, выполнения вероятностного анализа потока нагрузки и т. Д. Что такое кластеризация? Кластеризация - это метод машинного..