Очистка данных в машинном обучении

Все, что вам нужно знать об очистке данных

data.isnull().sum()
dropna(axis=1)
drop(features_list)
data.select_dtypes(exclude=[features_list])

Используйте цикл for с условием if data.isnull().any() для очистки как тестовых, так и обучающих данных.

Импутер

from sklearn.impute import SimpleImputer
my_imputer = SimpleImputer()
filled_data = my_imputer.fit_transform(data) //on train data
filled_data = my_imputer.transform(data) //on test data

Расширение для импутера: работа с копией данных.

Данные с низким количеством элементов (#unique values) для выбора категориальных столбцов.

#low_cardinality_cols
data[feature].nunique() < 10

Перекрестная проверка

from sklearn.model_selection import cross_val_score
cross_val_score(RandomForestRegressor(50),X, y,scoring = 'neg_mean_absolute_error').mean()

Терминология

подходит (Х, у); предсказать (Х); дерево; средняя_абсолютная_ошибка (у, пред); ансамбль; метрики; RandomForestRegressor; Регрессор дерева решений; описывать; столбцы данных; модель_выбор; test_train_split; cross_val_score; макс_листовые_узлы; получить_чайники;