Публикации по теме 'analytics'


Использование SMOTEBoost и RUSBoost для устранения дисбаланса классов
Бинарную классификацию с сильным дисбалансом классов можно найти во многих реальных классификационных задачах. От попытки предсказать такие события, как вторжение в сеть и банковское мошенничество, до медицинского диагноза пациента, цель в этих случаях состоит в том, чтобы иметь возможность идентифицировать экземпляры класса меньшинства, то есть класса, который недостаточно представлен в наборе данных. Это, конечно, представляет собой большую проблему, поскольку большинство прогнозных..

Доступ к данным Fantasy Premier League (20/21) в Google Таблицах
Я люблю FPL по двум причинам - футбол и данные. Хотя первое я понимал, получение доступа ко второму всегда было разочаровывающим процессом. Когда я пару лет назад заглянул в Интернет, мне потребовалось некоторое время, прежде чем я смог получить необработанные данные игрока в Excel / Google Sheets. Это побудило меня создать инструмент, который ежедневно извлекает данные и загружает данные FPL в Google Sheet. Итак, без лишних слов, вот ссылка: Данные FPL..

Усиление, Бэггинг, Случайный лес
Могут быть сценарии, в которых невозможно вычислить стандартное отклонение набора данных, в таких условиях Bootstrap становится полезным и может улучшить статистические методы, такие как деревья решений. Иногда может также случиться, что деревья решений имеют высокую дисперсию, то есть если мы разделим обучающий набор данных на половинки и запустим на них алгоритмы дерева решений, два выхода могут дать совершенно разные результаты. С другой стороны, линейная регрессия имеет тенденцию..

13 систем искусственного интеллекта, которые показывают, насколько далеко зашел искусственный интеллект
Эта статья в блоге взята и адаптирована из The Ultimate Data and AI Guide , написанного мной в соавторстве с Alexander Thamm и Dr. Александр Борек . Один из вопросов, который мне чаще всего задают: «Когда здесь появится ИИ»? Ответ уже здесь. На самом деле, это было в течение длительного времени. Дело как раз в том, что из-за шумихи вокруг ИИ в СМИ у общественности сложилось искаженное представление о том, что такое ИИ на самом деле. В этой статье я хочу поделиться 13..

Анализ аренды AirBNB, Бостон и Сиэтл
Airbnb — это онлайн-сервис, который помогает бронировать временное жилье для людей с их телефонов. Airbnb не владеет пространством, но играет роль посредника между владельцами и путешественниками. Владельцы могут перечислить свое пространство с арендной стоимостью. С другой стороны, путешественники с легкостью бронируют места онлайн. Кроме того, они могли оставить свой отзыв. Мотивация и вопросы В этом блоге я использую онлайн-набор данных Airbnb для анализа доходов и цен Airbnb. В..

Легко визуализируйте иерархии с помощью этих трех интерактивных графических диаграмм
Краткий урок визуализации данных с использованием данных из S & P500 Рассказывайте истории с вашими данными Когда я начал работать в команде Data Science компании, одним из моих первых проектов было усовершенствование одного из веб-приложений панели управления бизнес-аналитикой. Работая в области науки о данных, вам необходимо знать, как визуализировать данные, потому что вам часто приходится передавать информацию о данных, моделях и результатах аудитории. Думая о пользователях..

Улучшение нашей базовой модели вероятности выигрыша в игре для НФЛ: случайные леса
В моем предыдущем посте ( здесь ) я описал процесс построения базовой, основанной на логистической регрессии модели вероятности выигрыша в игре для НФЛ с использованием R. Мы построили модель, используя обучающий набор, извлеченный из игры за игрой. данные за сезоны НФЛ с 2009 по 2016 гг. В этом посте мы построим альтернативную модель на основе случайного леса. В последней (предстоящей) публикации этой серии мы обсудим оценку производительности модели с использованием логистической..