Понимание данных – важный шаг в сквозном машинном обучении. Понимание данных состоит из трех отдельных шагов:

1. Сбор данных:-

На этом этапе мы собираемся проанализировать, какие данные полезны и какие данные мы собираемся использовать для нашего проекта. Мы также должны указать, где хранятся наши данные, и извлечь данные из этих различных источников данных. После сбора данных и добавления различных наборов данных мы должны снова проанализировать дополнительные требования, например, какая функция влияет на целевую переменную, и выбрать эти функции для нашей модели.

2, свойства данных:-

Понимание свойств данных и функций и того, сколько данных мы собираемся использовать. Применение таких инструментов, как python, spark, SQL, а также визуализации и запросов для изучения данных и поиска взаимосвязей между ключевыми функциями с помощью графиков и анализа их влияния на проект.

3, Качество данных:-

В разделе качества данных мы должны найти, сколько атрибутов или функций содержит нулевые значения или ошибки, и заполнить их, используя среднее значение, медиану и моду, а также найти несоответствия в данных, такие как асимметрия, и использовать методы предварительной обработки, устраняющие их для лучшего качества данных.