Простая разработка функций и простые знания помогли мне попасть в топ-60. Разработка функций - это процесс подготовки данных. Когда мы изменяем данные, становятся известны скрытые закономерности в отношении данных.

Это делается путем преобразования существующих функций в новые. Однако нет четко определенной основы для выполнения функции проектирования. Для разработки функций нам необходимы знания предметной области, некоторая интуиция в отношении данных и, прежде всего, длительный процесс проб и ошибок.

JanataHack: HR Analytics в основном заключалась в разработке модели для прогнозирования тех, кто будет заинтересован в смене работы. Проблемы, связанные с этим набором данных, заключались только в заполнении значений Нан и правильном выборе построения модели. Тогда какова будет роль FEATURE ENGINEERING?

Feature Engineering помогает процессу построения модели, достигая хороших результатов. Это сделано для того, чтобы модель каким-то образом могла узнать идеальное разделение данных.

В вышеупомянутой проблеме, если рассматривать ее с точки зрения HR, роль нулевых значений играет огромную роль в прогнозировании тех, кто был бы заинтересован в смене работы. Верно верно!

Например, рассмотрите возможности использования функций, размер компании, тип компании, last_new_job, если null, они могут рассматриваться как более свежие, а целевая переменная по отношению к ним будет равна 1, что означает, что они будут заинтересованы в смене работы.

Результат для этого можно проверить по важности функции. Важность функции относится к методам, которые присваивают оценку входным функциям в зависимости от того, насколько они полезны при прогнозировании целевой переменной.

Следовательно, роль проектирования функций можно просто увидеть, создав функцию только с нулевым значением счетчика. В этой статье есть еще одна мораль: прежде чем рассматривать null, необходимо проанализировать его роль, относящуюся к доменам. Эта статья была бы невозможна без Analytics Vidya Hackathon (JanataHack: HR Analytics). Прежде всего, спасибо Analytics Vidya за предоставленную возможность оттачивать мои навыки.

Я хотел бы закончить эту статью цитатой:

некоторые проекты машинного обучения успешны, а некоторые - нет. В чем разница? Несомненно, наиболее важным фактором являются используемые функции.

- Педро Домингос

(Педро Домингос - профессор Вашингтонского университета. Он исследователь машинного обучения, известный своей логической сетью Маркова)