Слышали ли вы когда-нибудь о термине Мусор в мусоре на выходе? Я думаю, что все слышали, и то же самое применимо и к алгоритмам машинного обучения. Например: если вы обучаете свою модель машинного обучения с грязными или неполными данными, будет очевидно, что вы получите неточные результаты. И это причина существования термина Предварительная обработка данных.

Предварительная обработка данных — это процесс преобразования необработанных данных в значимые данные.

Этапы предварительной обработки данных:

Очистка данныхПроцесс удаления несогласованных данных или замены их соответствующими данными. Он включает в себя удаление строк/столбцов, удаление дубликатов, оценку отсутствующего значения(заполните либо средним значением, медианой, модой или глобальной константой, такой как 0 или «NA», в зависимости от структуры данных).

#dropping of column
df=df.drop(columns=column_name)

#dropping of row by index
df=df.drop(index)

#removing duplicate rows
df=df.drop_duplicates()

#estimate missing value with feature mode
column_name_mode=df[column_name].mode()[0]
df[column_name].replace(np.nan,column_name_mode,inplace=True)

Интеграция данных. Процесс объединения нескольких данных из разных источников в единое представление. Этот метод помогает нам анализировать данные, разбросанные по разным местам, и повышает эффективность.

import pandas as pd
df=pd.concat([df1,df2])

Сокращение данных:процесс исключения тех функций, которые не имеют отношения к прогнозу. Он включает в себя агрегирование, удаление избыточных функций или кластеризацию.

Преобразование данных. Процесс преобразования данных в другую форму, подходящую для обучения модели машинного обучения, где данные масштабируются от -1,0 до 1,0 или от 0,0 до 1,0. Он включает агрегация, преобразование типов признаков, нормализация, построение признаков.

from sklearn.preprocessing import StandardScaler
sc=StandardScaler()
sc.fit(df)
df=sc.transform(df)

Дискретизация данных. Процесс преобразования числовых данных путем сопоставления значений с метками интервалов помогает сократить значения заданного непрерывного атрибута путем разделения диапазона атрибута. Он включает бинирование. , анализ гистограмм, кластерный анализ, анализ дерева решений, корреляционный анализ. Выбросы можно сгладить с помощью Биннига и его сглаживания.

Итак, предварительная обработка данных — это первый шаг к обучению модели ML, который обеспечивает правильность и полноту входного набора данных и приближает нас к точному прогнозу.

Это моя первая статья, надеюсь вам понравится. Если да, похлопайте мне и поделитесь им, так как это повысит мою уверенность. Если нет, пожалуйста, дайте мне предложение, чтобы я мог улучшить.

Свяжись со мной на LinkedIn Кхуши Саху

Спасибо за прочтение! 😊