Понимание данных – важный шаг в сквозном машинном обучении. Понимание данных состоит из трех отдельных шагов:
1. Сбор данных:-
На этом этапе мы собираемся проанализировать, какие данные полезны и какие данные мы собираемся использовать для нашего проекта. Мы также должны указать, где хранятся наши данные, и извлечь данные из этих различных источников данных. После сбора данных и добавления различных наборов данных мы должны снова проанализировать дополнительные требования, например, какая функция влияет на целевую переменную, и выбрать эти функции для нашей модели.
2, свойства данных:-
Понимание свойств данных и функций и того, сколько данных мы собираемся использовать. Применение таких инструментов, как python, spark, SQL, а также визуализации и запросов для изучения данных и поиска взаимосвязей между ключевыми функциями с помощью графиков и анализа их влияния на проект.
3, Качество данных:-
В разделе качества данных мы должны найти, сколько атрибутов или функций содержит нулевые значения или ошибки, и заполнить их, используя среднее значение, медиану и моду, а также найти несоответствия в данных, такие как асимметрия, и использовать методы предварительной обработки, устраняющие их для лучшего качества данных.