Публикации по теме data-analytics

Публикации по теме 'data-analytics'

Cleanlab: автоматически и быстро исправляйте метки данных

ИИ, ориентированный на данные, без перемаркировки данных вручную Я использовал библиотеку cleanlab с открытым исходным кодом, чтобы удалить некачественные метки в наборе данных изображений. Модель, обученная на наборе данных без низкокачественных данных, повысила точность на 4 процентных пункта по сравнению с базовой моделью (обученной на всех данных). Улучшение качества данных звучит достаточно просто. По сути, это выявление и исправление неправильных ярлыков. Но рабочая..

Кто есть кто в современной экосистеме стека данных (осень 2021 г.)

(Эта статья изначально появилась в блоге Continual) В нашей предыдущей статье Будущее современного стека данных мы изучили мотивацию современного стека данных, его текущее состояние и с оптимизмом посмотрели в будущее, чтобы увидеть, куда он движется. Если вы новичок в современном стеке данных, мы настоятельно рекомендуем прочитать вышеупомянутую статью. От новичков в современном стеке данных часто задают вопрос: Какие технологии нам следует изучить? . Это отличный вопрос,..

Часть I. Надежные контролируемые онлайн-эксперименты — «A/B-тестирование» — «Закон Тваймена»

Для End to End Experiment и базового введения в A/B-тестирование, пожалуйста, обратитесь к моей предыдущей статье. В этой статье я расскажу о законе Тваймана и платформе экспериментов. Закон Тваймена: Чем необычнее или интереснее данные, тем более вероятно, что они были результатом ошибки того или иного рода. Любая фигура, которая выглядит интересной или необычной, обычно неверна. Любая статистика, которая кажется интересной, почти наверняка является ошибкой. Так что же на..

Неделя № 7 в машинном обучении

Приложения неконтролируемых моделей машинного обучения Предположим, вы владеете супермаркетом, который предлагает покупателям карты лояльности. Из этих карт вы получаете демографические данные клиентов. Вы также получаете данные об их расходах, которым вы присваиваете оценку на основе параметров, которые вы определяете на основе поведения клиентов. Постановка задачи Вы хотите понять клиентов по их различным атрибутам и сгруппировать их. Исследовательский анализ данных..

Изучение роли машинного обучения в анализе данных.

Машинное обучение уже оказало большое влияние на область анализа данных. От прогностических моделей, которые можно использовать для прогнозирования поведения клиентов, до более сложных алгоритмов, которые могут выявлять закономерности в больших наборах данных, машинное обучение произвело революцию в том, как предприятия используют данные. В этой статье мы исследуем роль машинного обучения в анализе данных. Мы обсудим, как машинное обучение уже произвело революцию в анализе данных и как..

Основы Pandas для начинающих

Во-первых, давайте разберемся с самой фундаментальной частью панд. Тот, который должен приходить к вам естественным образом, пока вы продолжаете практиковать панды. Два типа данных в pandas. Есть два наиболее часто используемых и основных типа данных, которые поддерживает библиотека pandas. Ряд Датафрейм Серия pandas — это одномерный тип данных. Это означает, что у него только одна ось. Но правильнее было бы сказать, что у него нет оси. Вы можете думать о серии pandas как о типе..

Что такое аналитика данных?

Возможно, вы слышали, что аналитика данных — это следующее большое дело для бизнеса, и хотите, наконец, понять, о чем весь этот ажиотаж. Может быть, вы думаете о том, чтобы стать аналитиком данных, и хотите знать, что на самом деле означает карьера в этой области. В любом случае, вы пришли в нужное место! Я постарался представить его в маркированном формате для удобства чтения. Аналитика данных — это использование: Данные Информационные технологии Статистический анализ..