Публикации по теме 'data-preprocessing'


Простое руководство по предварительной обработке данных в машинном обучении
Как улучшить качество данных, чтобы построить более точные модели ИИ? Узнайте о шагах предварительной обработки данных, которые необходимо предпринять, чтобы преобразовать необработанные данные в обработанную форму. Написано Pragati Baheti и первоначально опубликовано в блоге V7 ( Простое руководство по предварительной обработке данных в машинном обучении ) Данные — это не что иное, как актив в современном мире. Но - Можем ли мы действительно использовать эти обильные данные в..

Обработка нулевых значений в DataFrame (Pandas)
Существует множество способов обработки значений NA (недоступно) в кадре данных pandas. Вот несколько вариантов: df.fillna(value) : эту функцию можно использовать для заполнения значений NA определенным значением. Например, df.fillna(0) заменит все значения NA на 0. import pandas as pd # Create a sample DataFrame with missing values df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9], [np.nan, np.nan, np.nan]]) # Fill missing values with 0 df.fillna(0) # Fill missing values..

Раскрытие скрытой информации о ваших данных: руководство по исследовательскому анализу данных в Python
Исследовательский анализ данных (EDA) — важный шаг в любом проекте машинного обучения. Он включает анализ и обобщение данных, чтобы понять их характеристики и отношения. В этом сообщении блога мы рассмотрим некоторые ключевые шаги и методы проведения исследовательского анализа данных.

Машинное обучение: перекрестная проверка
Часть 2: Глубокое понимание различных методов перекрестной проверки. Это вторая часть серии перекрестных проверок, посвященная пониманию различных методов перекрестной проверки, их преимуществ и недостатков . Первую часть о понимании основ перекрестной проверки можно прочитать здесь Первая часть охватывает базовое введение в перекрестную проверку, как набор данных используется в качестве данных для обучения и тестирования, а также типы перекрестной проверки. . . . . . В этом..

One-Hot Encoding — Краткое объяснение
Уровень статьи: начальный Мои клиенты часто спрашивают меня об особенностях тех или иных методов предварительной обработки данных, зачем они нужны и когда их использовать. Я расскажу о нескольких распространенных (и не очень) методах предварительной обработки в серии статей на эту тему. В этой серии предварительной обработки: Стандартизация данных — Краткое объяснение — для начинающих Нормализация данных — Краткое объяснение — для начинающих Горячее кодирование —..

Машинное обучение: понимание целей центрирования и масштабирования
Использование преобразователей (MinMaxScaler, StandardScaler, RobustScaler) Введение В этой статье представлены концепции центрирования и масштабирования. На примере реального использования я объясняю преимущества центрирования и масштабирования данных. Углубляемся в простые расчеты и пояснения, рассматривая готовые методы Scikit-Learn. Технически мы сравниваем MinMaxScaler, StandardScaler и RobustScaler. Они являются частью методов преобразователей, облегчающих предварительную..

Упрощенный подход к моделированию машинного обучения в науке о данных — часть 1
Этот проект следует простому и понятному подходу к моделированию машинного обучения в науке о данных от чтения в файле csv, очистки данных, EDA, визуализации до простой линейной регрессии и множественной линейной регрессии. Эта часть охватывает очистку данных, предварительную обработку и визуализацию. Это первая часть серии, вторую часть, посвященную разработке функций, выбору функций и моделированию, можно найти здесь . Схема Импорт библиотек Чтение данных Описание данных..