Наука о данных, машинное обучение, искусственный интеллект… шума вокруг этих терминов достаточно, чтобы посторонний человек спутал эти инструменты с волшебными хрустальными шарами. Когда вы начинаете самостоятельно владеть этими инструментами, у вас есть множество наборов данных, которые помогут вам успешно практиковать новые методы. Когда вы пытаетесь испечь с нуля, все может оказаться на удивление рассыпчатым. В науке о данных мы обычно рассматриваем успех с точки зрения улучшения по сравнению с базовым прогнозом — насколько лучше мы предсказываем цель, чем текущий стандарт (или случайное угадывание). Поэтому, когда ваша модель не может значительно улучшить базовый уровень, естественно рассматривать ваши усилия как неудачу, но это может быть ошибкой.

Успешное доказательство того, что некоторые данные/признаки не объясняют ранее неучтенную дисперсию в цели, отличается от неспособности использовать прогностическую ценность признака. Набор данных, который не имеет прогностического значения для конкретной функции, все же может привести к некоторым интересным выводам.

Рассмотрим, например, набор данных, содержащий количество каждого типа преступлений, о которых сообщалось в каждом округе Соединенных Штатов, а также их соответствующий коэффициент Джини, показатель неравенства доходов.

Верной гипотезой может быть: более высокое неравенство в доходах приводит к более высокому уровню преступности. Тем не менее, после очистки данных, разработки функций и настройки модели неравенство доходов не лучше предсказывает уровень преступности, чем предположение о среднем значении базового уровня. Гипотеза не может быть принята.

Тем не менее, дальнейшее изучение данных может привести к некоторым интересным альтернативным гипотезам».

Из нашей модели мы можем спасти важность функций:

Из различных видов зарегистрированных преступлений «ОГРАБЛЕНИЕ» кажется самым сильным предиктором неравенства доходов.

Если бы и Ограбления на тысячу, и Коэффициент Джини были нормально распределенными данными, мы ожидали бы увидеть круговой график с центром на пересечении средних значений. Вместо этого мы видим, что значительно непропорционально большое количество округов имеют более низкий уровень грабежей на тысячу и неравенство в доходах по сравнению со средним значением. Следуя за концентрическими пиками, мы видим, что они смещены вправо, в сторону увеличения неравенства доходов.

Однако все это может быть совпадением, если вспомнить, что модель показала, что этот показатель обладает наибольшей прогностической силой в отношении неравенства доходов. Давайте построим график и сравним некоторые другие функции.

Оба они выглядят ближе к тому, что мы могли бы ожидать от обычных данных, очевидно, что существует некоторый перекос в сторону более высокого преступлений против собственности на тысячу и более высокого коэффициента Джини.

Кажется, что существует некоторая связь между уровнем преступности и неравенством доходов, даже если текущий набор данных не объясняет в достаточной мере эту вариацию. В дальнейшем мне было бы интересно добавить некоторые дополнительные функции, такие как средний доход, плотность населения и даже погода, чтобы предсказывать уровень преступности на основе конгломерата неравенства доходов и других характеристик.

Я благодарен за любой ваш отзыв, поэтому оставьте комментарий. Если вам интересно, вы можете найти мою записную книжку здесь, а репозиторий GitHub, содержащий все наборы данных и ссылки на оригиналы, — здесь.