Слышали ли вы когда-нибудь о термине Мусор в мусоре на выходе? Я думаю, что все слышали, и то же самое применимо и к алгоритмам машинного обучения. Например: если вы обучаете свою модель машинного обучения с грязными или неполными данными, будет очевидно, что вы получите неточные результаты. И это причина существования термина Предварительная обработка данных.
Предварительная обработка данных — это процесс преобразования необработанных данных в значимые данные.
Этапы предварительной обработки данных:
Очистка данныхПроцесс удаления несогласованных данных или замены их соответствующими данными. Он включает в себя удаление строк/столбцов, удаление дубликатов, оценку отсутствующего значения(заполните либо средним значением, медианой, модой или глобальной константой, такой как 0 или «NA», в зависимости от структуры данных).
#dropping of column df=df.drop(columns=column_name) #dropping of row by index df=df.drop(index) #removing duplicate rows df=df.drop_duplicates() #estimate missing value with feature mode column_name_mode=df[column_name].mode()[0] df[column_name].replace(np.nan,column_name_mode,inplace=True)
Интеграция данных. Процесс объединения нескольких данных из разных источников в единое представление. Этот метод помогает нам анализировать данные, разбросанные по разным местам, и повышает эффективность.
import pandas as pd df=pd.concat([df1,df2])
Сокращение данных:процесс исключения тех функций, которые не имеют отношения к прогнозу. Он включает в себя агрегирование, удаление избыточных функций или кластеризацию.
Преобразование данных. Процесс преобразования данных в другую форму, подходящую для обучения модели машинного обучения, где данные масштабируются от -1,0 до 1,0 или от 0,0 до 1,0. Он включает агрегация, преобразование типов признаков, нормализация, построение признаков.
from sklearn.preprocessing import StandardScaler sc=StandardScaler() sc.fit(df) df=sc.transform(df)
Дискретизация данных. Процесс преобразования числовых данных путем сопоставления значений с метками интервалов помогает сократить значения заданного непрерывного атрибута путем разделения диапазона атрибута. Он включает бинирование. , анализ гистограмм, кластерный анализ, анализ дерева решений, корреляционный анализ. Выбросы можно сгладить с помощью Биннига и его сглаживания.
Итак, предварительная обработка данных — это первый шаг к обучению модели ML, который обеспечивает правильность и полноту входного набора данных и приближает нас к точному прогнозу.
Это моя первая статья, надеюсь вам понравится. Если да, похлопайте мне и поделитесь им, так как это повысит мою уверенность. Если нет, пожалуйста, дайте мне предложение, чтобы я мог улучшить.
Свяжись со мной на LinkedIn Кхуши Саху
Спасибо за прочтение! 😊