Публикации по теме 'data-mining'


Обнаружение важных узлов в сети
Вероятностный подход для выявления скрытых иерархий в данных Авторы Килвер Дж. Кампос , Николя Поза Морено , Алехандро Альварес , Томас Вера . Обнаружение наиболее важных узлов в графовой базе данных (или наборе сетевых данных) представляет собой проблему, вызывающую широкий интерес в различных научных дисциплинах, особенно в области науки о данных. Его актуальность возрастает в последние годы благодаря достижениям в области хранения и вычислительной мощности современных компьютеров..

NumPy в 50 ячейках ноутбука
Изначально размещено здесь . Все коды находятся в блокноте jupyter и могут быть загружены здесь . В этом посте я представлю пакет NumPy и покажу, как использовать некоторые из его наиболее распространенных функций, функций и атрибутов. Я опишу каждую функцию на примере. Это руководство состоит из следующих частей: Что такое NumPy? Как создавать массивы NumPy Индексирование, необычное индексирование Нарезка Универсальные функции (Ufuncs) Вещание Маскирование, сортировка и..

Причины, по которым вам больше не следует рассматривать Data Science. Подожди, я же сказал, не надо!
«Информация - это нефть 21 века, а аналитика - двигатель внутреннего сгорания». Сила больших данных и науки о данных радикально меняет мир. С тех пор, как мы вступили в эру больших данных, наука о данных стала одной из самых быстрорастущих компаний с многомиллионными доходами. В настоящее время все завалено данными. Данные присутствуют в каждом цифровом и электронном устройстве. Будь то компьютер, мобильный телефон, ноутбук, фотоаппарат или даже часы. Компании..

Настройки для запуска моих кодов MATLAB, R и Python
Я выпускаю коды MATLAB, R и Python для регрессии, классификации, выбора переменных, визуализации, кластеризации, оценки предметной области и так далее. В этой статье я суммирую необходимые настройки для кодов MATLAB, R и Python. Я рекомендую R и Python, так как их можно подготовить бесплатно. МАТЛАБ MATLAB http://jp.mathworks.com/products/matlab/ Рекомендуется версия R2016a, но и другие версии могут подойти. Требуется набор инструментов статистики и машинного обучения. R..

SimRank: объяснение анализа сходства и реализация Python с нуля
Измерение сходства веб-сайтов Измерение сходства - проблема, необходимая во всех областях. SimRank - это интуитивно понятный и общий подход к измерению сходства. Он применим в любой области с отношениями объект-объект, измеряя сходство объекта на основе отношения с другими объектами. Ключ SimRank - это Два объекта считаются похожими, если на них ссылаются похожие объекты. Мы кратко представим алгоритм и рассмотрим реализацию Python с нуля. Алгоритм Не стесняйтесь..

Разбивка показателей оценки классификации
Точность, прецизионность, отзыв, кривая ROC, истинно положительный, ложноположительный, истинно отрицательный и ложноотрицательный Проблема классификации - это задача интеллектуального анализа данных, конечная цель которой - точно предсказать категориальную переменную ответа. Для настройки часто требуются обучающие данные, содержащие набор атрибутов и цель, а также набор прогнозов, для которого алгоритму выдаются данные, которых раньше не было. Затем алгоритм анализирует входные данные..

Моделирование мошенничества с Medicare с использованием государственных данных.
Интеллектуальный анализ данных в системе Medicare / Medicaid был легализован в 2013 году. Как власти используют эти данные для выявления злоумышленников? В Соединенных Штатах Medicare - это национальный план медицинского страхования, доступный в первую очередь для пожилых граждан старше 65 лет. Эта программа стоит дорого, отчасти из-за старения населения Америки и стремительно растущих расходов на здравоохранение. Он финансируется за счет доходов расширенного правительства (43%),..