Публикации по теме 'data-mining'
Обнаружение важных узлов в сети
Вероятностный подход для выявления скрытых иерархий в данных
Авторы Килвер Дж. Кампос , Николя Поза Морено , Алехандро Альварес , Томас Вера .
Обнаружение наиболее важных узлов в графовой базе данных (или наборе сетевых данных) представляет собой проблему, вызывающую широкий интерес в различных научных дисциплинах, особенно в области науки о данных. Его актуальность возрастает в последние годы благодаря достижениям в области хранения и вычислительной мощности современных компьютеров..
NumPy в 50 ячейках ноутбука
Изначально размещено здесь . Все коды находятся в блокноте jupyter и могут быть загружены здесь .
В этом посте я представлю пакет NumPy и покажу, как использовать некоторые из его наиболее распространенных функций, функций и атрибутов. Я опишу каждую функцию на примере.
Это руководство состоит из следующих частей:
Что такое NumPy? Как создавать массивы NumPy Индексирование, необычное индексирование Нарезка Универсальные функции (Ufuncs) Вещание Маскирование, сортировка и..
Причины, по которым вам больше не следует рассматривать Data Science. Подожди, я же сказал, не надо!
«Информация - это нефть 21 века, а аналитика - двигатель внутреннего сгорания».
Сила больших данных и науки о данных радикально меняет мир. С тех пор, как мы вступили в эру больших данных, наука о данных стала одной из самых быстрорастущих компаний с многомиллионными доходами. В настоящее время все завалено данными. Данные присутствуют в каждом цифровом и электронном устройстве. Будь то компьютер, мобильный телефон, ноутбук, фотоаппарат или даже часы.
Компании..
Настройки для запуска моих кодов MATLAB, R и Python
Я выпускаю коды MATLAB, R и Python для регрессии, классификации, выбора переменных, визуализации, кластеризации, оценки предметной области и так далее.
В этой статье я суммирую необходимые настройки для кодов MATLAB, R и Python. Я рекомендую R и Python, так как их можно подготовить бесплатно.
МАТЛАБ
MATLAB http://jp.mathworks.com/products/matlab/
Рекомендуется версия R2016a, но и другие версии могут подойти.
Требуется набор инструментов статистики и машинного обучения.
R..
SimRank: объяснение анализа сходства и реализация Python с нуля
Измерение сходства веб-сайтов
Измерение сходства - проблема, необходимая во всех областях. SimRank - это интуитивно понятный и общий подход к измерению сходства. Он применим в любой области с отношениями объект-объект, измеряя сходство объекта на основе отношения с другими объектами.
Ключ SimRank - это
Два объекта считаются похожими, если на них ссылаются похожие объекты.
Мы кратко представим алгоритм и рассмотрим реализацию Python с нуля.
Алгоритм
Не стесняйтесь..
Разбивка показателей оценки классификации
Точность, прецизионность, отзыв, кривая ROC, истинно положительный, ложноположительный, истинно отрицательный и ложноотрицательный
Проблема классификации - это задача интеллектуального анализа данных, конечная цель которой - точно предсказать категориальную переменную ответа. Для настройки часто требуются обучающие данные, содержащие набор атрибутов и цель, а также набор прогнозов, для которого алгоритму выдаются данные, которых раньше не было. Затем алгоритм анализирует входные данные..
Моделирование мошенничества с Medicare с использованием государственных данных.
Интеллектуальный анализ данных в системе Medicare / Medicaid был легализован в 2013 году. Как власти используют эти данные для выявления злоумышленников?
В Соединенных Штатах Medicare - это национальный план медицинского страхования, доступный в первую очередь для пожилых граждан старше 65 лет. Эта программа стоит дорого, отчасти из-за старения населения Америки и стремительно растущих расходов на здравоохранение. Он финансируется за счет доходов расширенного правительства (43%),..