Библиотеки Scikit, настроенные для создания моделей машинного обучения, есть библиотека под названием «Выбор модели», из этой импортной библиотеки «train_test_split», с помощью которой можно легко разделить данный набор данных на наборы данных для обучения и тестирования в различных пропорциях. Так почему же требуется разделение, верно?

Когда какой-либо набор данных, с которым вы работаете над моделью, хочет обучить данные, в таких сценариях вы, очевидно, разделяете набор данных на обучающий и тестовый наборы данных. Если тренироваться на одном наборе данных (обучение) и тестировать производительность нашей модели в другом наборе данных (тестирование), чтобы увидеть меру нашей производительности. Как правило, разделите набор данных в соответствии с правилом 80/20%, 80% идет на обучающий набор данных, а остальные — на тестовый набор данных, здесь вы увидите, как разделить набор данных, очевидно, не вручную, а также необходимо обеспечить разделение набора данных случайным методом.

из sklearn.model_selection импорта train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0,2, random_state = 123)