1. Векторизация:

Процесс маркировки структурированных или неструктурированных данных называется векторизацией.

Например:

Изображение кота, помеченного цифрой 1, и изображение собаки, а не кота

2. Нормализация:

Чтобы избежать дополнительных вычислений и дополнительного времени ожидания, мы преобразуем большие или малые значения всех полезных столбцов (атрибутов) между 0 и 1, где их среднее значение должно быть равно нулю, а их стандартное отклонение равно 1.

3. Обработка пропущенных значений:

Вставьте разумные значения в отсутствующие значения или значения NaN столбцов по среднему, медиане или моде. вы также можете использовать и другие подходы.

4. Извлечение признаков:

Выбирайте полезные столбцы/функции с умом и разбивайте их на метки и ввод/вводы в соответствии с поставленной задачей.