Публикации по теме 'data-preprocessing'
Простое руководство по предварительной обработке данных в машинном обучении
Как улучшить качество данных, чтобы построить более точные модели ИИ? Узнайте о шагах предварительной обработки данных, которые необходимо предпринять, чтобы преобразовать необработанные данные в обработанную форму.
Написано Pragati Baheti и первоначально опубликовано в блоге V7 ( Простое руководство по предварительной обработке данных в машинном обучении )
Данные — это не что иное, как актив в современном мире. Но -
Можем ли мы действительно использовать эти обильные данные в..
Обработка нулевых значений в DataFrame (Pandas)
Существует множество способов обработки значений NA (недоступно) в кадре данных pandas. Вот несколько вариантов:
df.fillna(value) : эту функцию можно использовать для заполнения значений NA определенным значением. Например, df.fillna(0) заменит все значения NA на 0.
import pandas as pd
# Create a sample DataFrame with missing values
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9], [np.nan, np.nan, np.nan]])
# Fill missing values with 0
df.fillna(0)
# Fill missing values..
Раскрытие скрытой информации о ваших данных: руководство по исследовательскому анализу данных в Python
Исследовательский анализ данных (EDA) — важный шаг в любом проекте машинного обучения. Он включает анализ и обобщение данных, чтобы понять их характеристики и отношения. В этом сообщении блога мы рассмотрим некоторые ключевые шаги и методы проведения исследовательского анализа данных.
Машинное обучение: перекрестная проверка
Часть 2: Глубокое понимание различных методов перекрестной проверки.
Это вторая часть серии перекрестных проверок, посвященная пониманию различных методов перекрестной проверки, их преимуществ и недостатков .
Первую часть о понимании основ перекрестной проверки можно прочитать здесь
Первая часть охватывает базовое введение в перекрестную проверку, как набор данных используется в качестве данных для обучения и тестирования, а также типы перекрестной проверки.
. . . . .
В этом..
One-Hot Encoding — Краткое объяснение
Уровень статьи: начальный
Мои клиенты часто спрашивают меня об особенностях тех или иных методов предварительной обработки данных, зачем они нужны и когда их использовать. Я расскажу о нескольких распространенных (и не очень) методах предварительной обработки в серии статей на эту тему.
В этой серии предварительной обработки:
Стандартизация данных — Краткое объяснение — для начинающих Нормализация данных — Краткое объяснение — для начинающих Горячее кодирование —..
Машинное обучение: понимание целей центрирования и масштабирования
Использование преобразователей (MinMaxScaler, StandardScaler, RobustScaler)
Введение
В этой статье представлены концепции центрирования и масштабирования. На примере реального использования я объясняю преимущества центрирования и масштабирования данных.
Углубляемся в простые расчеты и пояснения, рассматривая готовые методы Scikit-Learn.
Технически мы сравниваем MinMaxScaler, StandardScaler и RobustScaler. Они являются частью методов преобразователей, облегчающих предварительную..
Упрощенный подход к моделированию машинного обучения в науке о данных — часть 1
Этот проект следует простому и понятному подходу к моделированию машинного обучения в науке о данных от чтения в файле csv, очистки данных, EDA, визуализации до простой линейной регрессии и множественной линейной регрессии.
Эта часть охватывает очистку данных, предварительную обработку и визуализацию.
Это первая часть серии, вторую часть, посвященную разработке функций, выбору функций и моделированию, можно найти здесь .
Схема
Импорт библиотек Чтение данных Описание данных..