Публикации по теме 'data'


Исследовательский анализ данных - пошаговый скелет с набором данных (производство меда в США) - для…
EDA — очень важный шаг в анализе данных перед прогнозированием модели, когда мы более глубоко понимаем наши данные. Но в начале нашего путешествия по науке о данных нам было трудно выбрать правильную визуализацию вместе с библиотекой pandas, чтобы делать выводы и выводы. С помощью EDA мы находим уникальные характеристики с одномерными и многомерными данными, такими как выбросы, форма распределения, статика, порядок появления и многое другое. Мы понимаем корреляцию, тенденции,..

Быстрый совет по науке о данных № 004: использование пользовательских преобразователей в конвейерах Scikit-Learn!
Быстрый совет по науке о данных № 004: использование пользовательских преобразователей в конвейерах Scikit-Learn! Узнайте, как использовать пользовательские преобразователи данных в одном и том же конвейере Scikit-Learn. Всем привет. Мы снова вернулись с постом, дополняющим совет из предыдущего поста о том, как вообще создавать пайплайны Scikit-Learn. Если вы пропустили это, теперь вы можете проверить это по этой ссылке . (Где он теперь официально опубликован в Towards Data..

7 ШАГОВ МАШИННОГО ОБУЧЕНИЯ
Сбор данных Сбор данных — это процесс сбора информации и данных из различных источников. Важно убедиться, что данные точны, актуальны и репрезентативны для изучаемой совокупности или явления. Иначе мусор на входе, мусор на выходе. 2. Подготовка данных Подготовка данных, (предварительная) обработка данных — это процесс очистки, преобразования и организации данных перед анализом. Этот шаг имеет решающее значение для обеспечения того, чтобы данные были в подходящем для анализа..

Сегментация клиентов с помощью RFM
Руководство по сегментации клиентов с помощью RFM. Определение RFM Новизна, частота, денежная стоимость — это инструмент маркетингового анализа, используемый для классификации лучших клиентов компании или организации путем измерения и анализа покупательских привычек. Это известная и простая в применении техника. Мы сегментируем наших клиентов в соответствии с их структурой расходов. Он широко используется в маркетинге баз данных и прямом маркетинге и получил особое внимание в..

Индекс капюшона
ИИ может помочь улучшить жизнь в районе. Многие годы градостроители работают над тем, чтобы сделать города красивыми, а жизнь горожан комфортной. На протяжении всего времени было много исследований и идей о том, как улучшить городскую жизнь. На сегодняшний день одним из самых больших трендов в городском дизайне является концепция 15-минутного города . Основная идея заключается в том, что вы можете добраться до нужных вам мест за 15 минут. Пандемия COVID-19 показала, что эта идея..

Предварительная обработка данных - ключ к успеху!
«Мусор на входе, мусор на выходе» - часто употребляемая фраза, когда дело касается обработки данных. В наших предыдущих статьях мы рассмотрели несколько алгоритмов, а именно логистическую регрессию, K-ближайших соседей (KNN), в которых мы углубились в плюсы и минусы каждой модели, а также рассмотрели наилучшую ситуацию, в которой применение этих моделей обеспечило бы наилучшие результаты. Хотя выбор и применение правильной модели существенно влияет на точность, наличие чистого и..

Portable.io — революционный инструмент ELT?
Проверяя Linkedin, я наткнулся на сообщение, в котором говорилось: «Представьте себе инструмент ETL с более чем 125 коннекторами. Это ВПЕЧАТЛЯЮЩАЯ инженерия. А теперь представьте это: Portable только что добавила более 125 коннекторов ETL, чтобы достичь нашей цели в 500+ коннекторов к концу апреля». Как Data Engineer, я практически каждый день прохожу через ритуал, когда мне показывают рекламу будущих инструментов ETL/ELT, и я сразу же отклоняю их, но этот пост привлек мое внимание...