Чтобы прогнозировать новые данные, модель необходимо сначала обучить. Итак, важно разделить ваши наборы данных на определенный процент обучающего набора и определенный процент тестовых наборов. Поэтому случайным образом перемешивание данных в любых наборах данных необходимо для того, чтобы не привести к систематические ошибки в прогнозе данных.

Приведу один пример предубеждений! Предположим, у вас есть файл с ценами на жилье, где у вас есть верхние шесть строк, состоящие из цен Бангалоу, и нижние шесть строк, состоящие из обычных домов. Тогда, если вы не перетасовываете данные, а напрямую применяете 70% для обучения и 30% для тестирования.Тогда здесь будут смещения. Как! вам может быть интересно, правда?🤔🤔 Давайте посмотрим, как. Здесь верхние 70% обучающих данных будут получены из цены Bangalow, которую вы обучаете модели, и вы тестируете нижние 30% обычной цены дома для модели. Тогда можете ли вы представить, что ваша модель будет предсказывать правильный результат? 😂😊Поэтому определение случайного состояния необходимо.

ДАВАЙТЕ ВИЗУАЛИЗИРОВАТЬ,

Посмотрим данные. Предположим, у вас есть такие наборы данных, как [1,2,3,4,5,6,7,8,9,10], и вы хотите, чтобы 70 % ваших данных использовались для обучения вашей модели, а 30 % — для проверки вашей модели.

Затем машинный алгоритм перетасовывает ваши 10 данных в 70% обучающий набор и 30% тестовый набор. Для этого будет 120 комбинаций наборов данных случайного перемешивания, как показано на рисунке 2 ниже. Таким образом, вы можете выбрать любое количество random_state для своей модели. Все время невозможно узнать комбинацию вашего возможного random_state. Поэтому всегда можно выбрать числовое состояние для начинающих, например (0, 1, 2 или 3), random_state=0, или 1, или 2, или 3.

Если вы укажете random_state=n, машина всегда будет тестировать модель для этого конкретного случайного состояния «n».

Дополнительную визуализацию с разделением данных на тестовые и обучающие наборы можно найти на Github: https://github.com/Aryal-Shanta/Splitting_data_in_Machine_Learning

Вот простой пример случайного состояния,