Машинное обучение — и почему это не так страшно, как я думал

Машинное обучение — когда большинство людей слышат об этом, они могут сначала подумать о роботах с искусственным интеллектом, захвативших мир, таких как Скайнет из Матрицы, или о каком-то антиутопическом мире, похожем на фильм «Я, робот». Я признаю, что до того, как я начал учиться в качестве специалиста по данным, видения разумных роботов также приходили мне в голову, скорее всего, из-за того, что я подвергался слишком большому количеству СМИ и тактике запугивания из новостей.

Вместо этого машинное обучение гораздо более разнообразно, чем создание боевых роботов, которые лишат всех рабочих мест и унесут жизни. Согласно Википедии, в самом простом из определений машинное обучение — это изучение компьютерных алгоритмов, которые автоматически улучшаются благодаря опыту. Для многих самой страшной частью этого определения могут быть используемые математические алгоритмы.

Чем больше я узнаю эту тему, тем больше вижу, как это уже укоренилось в нашей повседневной жизни, и это тоже не что-то новое. Во многих отраслях алгоритмы обучения используются десятилетиями, и большинство людей не задумываются об этом дважды. В частности, продуктовые магазины используют это для печати купонов на товары, которые покупатель с большей вероятностью купит в зависимости от покупательских привычек. Обычно люди более чем взволнованы, когда принтер купонов в их любимом магазине дает им скидку на товар, который они действительно хотят или планируют приобрести.

Выяснение лучших купонов для кого-то — это всего лишь версия модели рекомендаций, аналогичная той, что предоставляет еженедельные плейлисты Spotify, рекомендации YouTube и рекламу в Instagram. Однако углубляясь в это, из-за мощности этих математических алгоритмов модели могут даже обрабатывать изображения и классифицировать слова в эссе или любых других письменных работах.

Для третьего проекта, назначенного в школе Flatiron, нам поручили создать модели для решения задачи классификации по нашему выбору. Данные, которые мы могли бы использовать, варьируются от автомобильных аварий, остановок и обысков, связанных с Терри против Огайо, удержания клиентов телекоммуникаций и информации о снабжении чистой водой Танзании. Тот факт, что машинное обучение можно использовать для решения любой из них, просто удивителен только на основе различных типов данных и множества задач классификации, которые могут быть созданы! Кроме того, связывание машинного обучения с важными социальными проблемами, такими как предоставление услуг бедным странам и сообществам или выявление тенденций дорожного движения для предотвращения автомобильных аварий, является не только важной работой, но и показывает, что машинное обучение используется для гораздо более важных вещей, а не для чего-то, что нужно опасаясь.

Для моего конкретного проекта я решил подробнее изучить набор данных Terry Traffic Stops, связанный с делом Терри против Огайо. Общий обзор этого дела состоит в том, что в 1967 году трое мужчин были остановлены полицейским, который, по описанию, был в штатском. Эта остановка привела к тому, что офицер обыскал мужчин, основываясь на его убеждении, что они подозрительны, и заставил его найти оружие у двух из трех мужчин. Утверждалось, что эта остановка нарушила право мужчин на Четвертую поправку, которая защищает людей от необоснованных обысков и конфискаций со стороны правительства. Однако в решении 8 к 1 суд счел, что офицер не нарушил Четвертую поправку.

Несмотря на то, что этот случай произошел более 50 лет назад, подобные вопросы по-прежнему важны и актуальны сегодня, поскольку мы все больше слышим о расовой несправедливости, которая имеет место в отношении общин меньшинств, но чаще всего в отношении чернокожих и афроамериканцев. Хотя важно быть чувствительным к несправедливости, с которой иногда сталкиваются эти сообщества, я хотел посмотреть, смогу ли я построить классификационную модель, чтобы определить, полезна ли эта тактика обыска при аресте и какие другие возможные особенности могут быть важны, когда произвести арест.

Посмотреть мою работу над этим проектом можно здесь:

https://github.com/melfriedman/FriskAnalysis