Когда мы сталкиваемся с набором данных, который имеет более сотни тривиальных функций, очень трудно сказать, какие алгоритмы машинного обучения лучше всего подходят для этого набора данных. Иногда мы даже не знаем, существуют ли какие-то функции, которые могут вызвать путаницу и снизить эффективность прогнозирования. Таким образом, неизбежным действием при анализе набора данных является исследование данных. При этом нам нужно понимать, как составлен наш набор данных, какие функции являются показательными, тривиальными и бесполезными. Затем мы либо удалим тривиальные особенности, либо объединим их, чтобы они были ориентировочными.

В этом руководстве я покажу вам, как исследовать данные для набора данных. Набор данных, который я использую, - это прогнозирование бедности домашних хозяйств в Остарии. Этот набор данных содержит более 100 характеристик, таких как состояние дома, уровень образования и члены семьи. К сожалению, большинство из них тривиально и одно из них закодировано в горячем режиме. Итак, как исследовать данные - критически важная часть в попытке предсказать эту часть. Я собираюсь сосредоточиться на части состояния дома и объединить тривиальные характеристики жилья в статью об оценке стоимости дома.

Посмотрите репо здесь! Повеселись!

Для полного репо отметьте здесь.

Спасибо ~