Публикации по теме 'data-mining'


Фразы качества майнинга из не столь массивных текстовых корпусов (часть I)
Фразы качества майнинга из не столь массивных текстовых корпусов (часть I) Вы можете найти репо с Jupyter Notebook, содержащее использованный код здесь На прошлой неделе я имел удовольствие посетить лекцию по интеллектуальному анализу текстовых данных профессора Цзявэя Хана из Иллинойского университета в Урбане-Шампейне, который буквально написал учебник по интеллектуальному анализу данных и имеет больше цитирований, чем Эйнштейн, в Google Scholars (я не шучу: здесь и здесь )...

Математика дерева решений
Дерево решений — очень важный метод контролируемого обучения. В основном это проблема классификации. Это древовидная диаграмма, основанная на концепции алгоритма ID3. Он содержит узлы и листовые узлы. он использует эти узлы и листовые узлы, чтобы сделать вывод. Здесь мы поговорим об энтропии в дереве решений. Давайте посмотрим, что мы собираемся узнать об энтропии дерева решений. Что такое энтропия? Индекс Джини? Информационная выгода? Дерево решений для числовых функций..

Логические единицы для данных
Одно из заблуждений, с которыми я столкнулся у клиентов, пытающихся провести анализ данных или машинное обучение с помощью существующих баз данных, заключается в том, что один документ в одной базе данных представляет собой единственную логическую единицу данных для отправки в программное обеспечение для анализа данных или машинного обучения. Другими словами, для каждого документа должна быть одна строка в CSV или структура данных в JSON. Это предполагает, что целевое программное..

Демистификация больших данных, машинного обучения и интеллектуального анализа данных!
Начиная с сегодняшнего дня, я попытаюсь разобрать основные концепции, идеи и термины, связанные с наукой о данных, большими данными, машинным обучением, аналитикой и многими другими подобными темами. Итак, давайте углубимся. Начнем с нуля! Зачем заниматься наукой о данных, ML (машинное обучение), AI (искусственный интеллект), аналитикой данных, большими данными (BD)? Короткий ответ: мы хотим знать информацию лучше, быстрее, дешевле и, что более важно, знать ее правильно в режиме..

Понимание алгоритмов кластеризации K-средних, K-средних ++ и K-medoids
Обзор алгоритмов кластеризации K-средних, K-средних ++ и K-Medoids и их взаимосвязей. Эта статья также включает его реализацию с нуля и с использованием библиотеки sklearn. Кластеризация - это метод машинного обучения без учителя, который разделяет совокупность или точки данных на несколько групп или кластеров, так что точки данных в тех же группах больше похожи на другие точки данных в той же группе и не похожи на точки данных в других группах. Точки в одном кластере расположены..

CRISP_DM мой неизвестный!
Данные вездесущи! Каждое приложение, сервис, платформа собирают данные, которые, как говорят некоторые эксперты, являются новой нефтью! Но что мы извлечем из этих данных? Какие цели/проблемы это решит? У меня были похожие вопросы, когда я впервые увидел рекламу IBM о решениях, управляемых данными. Ключ находится в Insights, которые скрыты глубоко внутри самих данных. И чтобы распутать их, вы должны научиться копать. Вот что такое интеллектуальный анализ данных. Эти идеи могут..

Использование данных интеллектуального анализа данных в цифровой криминалистике
Если предпосылкой решения проблем являются знания, то интеллектуальный анализ данных — это святой Грааль. «Интеллектуальный анализ данных — это анализ (часто больших) наборов данных наблюдений для выявления неожиданных взаимосвязей и обобщения данных новыми способами, понятными и полезными для владельца данных» (Hand, Mannila and Smyth, 2001). Отношения, собранные с помощью методов интеллектуального анализа данных, часто называют моделями или шаблонами. Примеры включают линейные уравнения,..