Вам нужно будет создать синтетический набор данных.

В scikit-learn доступно множество стратегий для создания смоделированных данных. Среди них есть три очень полезных подхода.

1. make_regression() :

make_regression() — хороший выбор, когда мы хотим, чтобы созданный набор данных использовался с линейной регрессией.

Parameters :
n_samples : int, default=100
The total amount of samples taken.
n_features : int, default=100
The number of features.
noise : float, default=0.0
The standard deviation of the gaussian noise applied to the output.
Although I've focused on the most important ones, there are a plethora of others parameter to consider.

2. make_classification():

Используя make_classification(), мы можем создать смоделированный набор данных для целей классификации.

Parameters :
n_samples : int , default=100
The number of samples.
n_features : int , default=20
The total number of features.
n_classes : int , default=2
The number of classes (or labels) of the classification problem.

3. make_blobs():

Scikit-learn дает нам make_blobs(), если нам нужен набор данных, который хорошо работает с методами кластеризации.

Parameters :
n_samples : int , default=100
The number of samples.
n_features : int , default=2
The number of features for each sample.
centers : int , default=None
The number of centers to generate.

Количество созданных кластеров задается параметром centers. Мы можем увидеть кластеры, созданные с помощью make_blobs(), используя библиотеку matplotlib. :

Надеюсь, эта статья оказалась для вас полезной и вы узнали что-то новое ❤

Похлопайте, если вам понравилась эта статья, и подпишитесь на другие материалы, подобные этой.

Ссылка :

  1. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html
  2. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html
  3. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html
  4. https://www.oreilly.com/library/view/machine-learning-with/9781491989371/