После исследовательского анализа данных, проверки качества данных и устранения отсутствующих значений данные поезда набора данных готовы к разработке функций.

Пожалуйста, посетите мой предыдущий пост об исследовательском анализе данных, прежде чем использовать разработку функций, описанную в этом посте.

Мой приведенный ниже пример можно найти в Kaggle. Пожалуйста, найдите набор данных

Ниже приведены функции разработки, которые я всегда использую для работы с числовыми и категориальными значениями.

Для столбцов/функций/факторов/переменных наборов данных, которые являются числовыми:

  • Статистическое преобразование: использование np.log() нормализует числовые переменные. Если числовой набор данных для vaiable не соответствует нормальному распределению, мы реализуем log() для нормализации числового набора данных. Журнал помогает в обработке набора данных. После преобразования журнала распределение становится более приближенным к нормальному.
  • Bining: используя np.where(), кодируйте некоторые числовые значения. Иногда числовые значения имеют так много распределений внутри
  • Кодирование: для столбцов / признаков / факторов / переменных набора данных, которые являются категориальными: с использованием pd.get_dummies () фиктивного кодирования категориальных значений и не забудьте изменить тип данных на int16

Давайте вернемся к набору данных, с которым мы работали в предыдущем посте: исследовательский анализ данных. Набор данных из 7 столбцов.

Постановка задачи: прогнозировать повреждение урожая (зависимая переменная) на основе независимых переменных.

Ниже приведены скрипты Python для статистического преобразования, биннинга, кодирования категориальных данных.

Изменение типов данных новых категориальных столбцов. Также удалите с помощью drop() числовые столбцы, которые уже были закодированы.

Вы могли заметить, что набор данных из 7 столбцов теперь представляет собой набор данных из 18 столбцов после разработки функций.

Выше приведены некоторые базовые функции разработки, которые можно выполнить с помощью простых утилит Python. Теперь набор сельскохозяйственных данных из 17 столбцов (первоначально 7) очищен, отсутствующие данные взяты (как в предыдущем посте) и завершена разработка функций. В следующем посте я перечислю основные этапы моделирования машинного обучения.

Если вы хотите запланировать звонок, свяжитесь со мной по адресу https://calendly.com/girishkurup/15min.