Публикации по теме 'data-science'


SQL для науки о данных - это больше, чем SELECT *
Итак, вы закончили курс Data Science, вы изучили Python, статистику, линейную алгебру, машинное обучение, глубокое обучение, вы осваиваете основные библиотеки для исследования данных, вы много практиковались с данными Kaggle, сделал отличное портфолио и получил работу специалиста по данным! Вы очень взволнованы , когда приедете в первую неделю на работу, откройте файлы .csv или .xlsx с пандами и начните изучать данные! Но подождите… «Где файлы .csv / .xlsx ???» В настоящее..

Запуск блога по науке о данных  —  11-е издание!
Шанс выиграть 4 лакха индийских рупий + iPad (8-го поколения) + гарантированные бонусы за каждую опубликованную статью! Что, если бы вы могли зарабатывать деньги за каждую статью, которую публикуете в блогах? Это невероятная возможность перед вами! Более 1200+ статей набрали тысячи просмотров, и мы продолжаем получать огромное количество отзывов от сообщества! Какие призы предлагаются? Каждая статья, соответствующая стандартам Analytics Vidhya, будет опубликована в блоге..

Можете ли вы отличить случайное и неслучайное?
Апофения или склонность ошибочно воспринимать связи и значение между несвязанными вещами . Оказывается, люди ведут себя совершенно бессмысленно, когда рассказывают случайные вещи, помимо вещей, которые не являются таковыми. На самом деле мы иногда видим закономерности там, где их нет, а другие могут сказать, что что-то случайное, но не имеют научного способа объяснить это. Чаще всего это наблюдается, когда люди думают, что номера лотереи 1 2 3 4 5 6 встречаются с меньшей..

Упрощение машинного обучения с помощью ATOM ML: подробное руководство и реальный пример
Atom — это бесплатная платформа машинного обучения (ML) с открытым исходным кодом, разработанная командой Hugging Face, цель которой — сделать ML доступным для всех. Atom построен на основе PyTorch и предоставляет простой, но мощный API для обучения и развертывания моделей машинного обучения. В этом блоге мы углубимся в модуль Atom ML и рассмотрим его возможности на реальном примере. Atom ML — это модуль в рамках Atom, который предоставляет простой в использовании интерфейс для..

Сочетание очистки данных, выбора признаков, моделирования и интерпретации
Идея Сочетание очистки данных, выбора признаков, моделирования и интерпретируемости является важным итеративным процессом в анализе данных и машинном обучении. Очистка данных включает в себя обработку отсутствующих значений, выбросов и несоответствий для обеспечения качества и надежности набора данных. Выбор функций помогает определить наиболее важные переменные, которые в значительной степени влияют на производительность прогностической модели, уменьшая размерность и повышая..

Обработка больших числовых массивов в Python — Часть I
В этой статье Дима объясняет, как он работал с numpy, pandas, xarray, cython и numba для оптимальной реализации операций с большими числовыми массивами на Quantiacs . платформа. Python очень популярен среди специалистов по данным и широко используется для обработки данных. Поскольку это интерпретируемый язык, это не лучший вариант для быстрой обработки данных. C, Java или любой другой скомпилированный язык обычно намного быстрее. Если вы хотите достичь приемлемой..

Создание собственного инструмента OCR с помощью Tess4J  —  Извлечение текста из PDF всего за 3 шага
Часть II знакомства с Tess4J. Полный исходный код (Java SDK 1.8) и ссылка на приложение включены. ❝Цифровизация невозможна без оцифровки❞ Это утверждение становится все более верным по мере того, как все больше корпораций и государственных организаций принимают идею повышения эффективности обмена информацией и используют неотъемлемую ценность своих данных для конструктивной аналитики. Одним из важнейших инструментов снижения накладных расходов на оцифровку является Оптическое..