После исследовательского анализа данных, проверки качества данных и устранения отсутствующих значений данные поезда набора данных готовы к разработке функций.
Пожалуйста, посетите мой предыдущий пост об исследовательском анализе данных, прежде чем использовать разработку функций, описанную в этом посте.
Мой приведенный ниже пример можно найти в Kaggle. Пожалуйста, найдите набор данных
Ниже приведены функции разработки, которые я всегда использую для работы с числовыми и категориальными значениями.
Для столбцов/функций/факторов/переменных наборов данных, которые являются числовыми:
- Статистическое преобразование: использование np.log() нормализует числовые переменные. Если числовой набор данных для vaiable не соответствует нормальному распределению, мы реализуем log() для нормализации числового набора данных. Журнал помогает в обработке набора данных. После преобразования журнала распределение становится более приближенным к нормальному.
- Bining: используя np.where(), кодируйте некоторые числовые значения. Иногда числовые значения имеют так много распределений внутри
- Кодирование: для столбцов / признаков / факторов / переменных набора данных, которые являются категориальными: с использованием pd.get_dummies () фиктивного кодирования категориальных значений и не забудьте изменить тип данных на int16
Давайте вернемся к набору данных, с которым мы работали в предыдущем посте: исследовательский анализ данных. Набор данных из 7 столбцов.
Постановка задачи: прогнозировать повреждение урожая (зависимая переменная) на основе независимых переменных.
Ниже приведены скрипты Python для статистического преобразования, биннинга, кодирования категориальных данных.
Изменение типов данных новых категориальных столбцов. Также удалите с помощью drop() числовые столбцы, которые уже были закодированы.
Вы могли заметить, что набор данных из 7 столбцов теперь представляет собой набор данных из 18 столбцов после разработки функций.
Выше приведены некоторые базовые функции разработки, которые можно выполнить с помощью простых утилит Python. Теперь набор сельскохозяйственных данных из 17 столбцов (первоначально 7) очищен, отсутствующие данные взяты (как в предыдущем посте) и завершена разработка функций. В следующем посте я перечислю основные этапы моделирования машинного обучения.
Если вы хотите запланировать звонок, свяжитесь со мной по адресу https://calendly.com/girishkurup/15min.