Шаг за шагом: как кластеризовать данные с помощью глубокого машинного обучения

Прошло 20 лет с тех пор, как IBM Deep Blue победила гроссмейстера Гарри Каспарова в шахматах. Я помню, как смотрел драму, разворачивающуюся на моем компьютере службы поддержки на моей первой работе после колледжа, и видел каждое движение подряд - анимированное в реальном времени. Это был матч на века и одно из первых динамичных интерактивных событий в сети.

Deep Blue проиграл Каспарову годом ранее, но впечатляюще обыграл его в матче-реванше. По сути, Deep Blue выиграл, потому что он мог прожить всю жизнь, играя в шахматы за считанные минуты на каждый ход, рассчитывать лучший прогноз для этой текущей доски и давать себе больше информации о том, как обыграть Каспарова, который каждый счетчик. Сегодня ваш iPhone может обрабатывать больше вычислений, чем Deep Blue в 1997 году. Пришло время применить мощь машинного обучения!

У меня есть фальшивые данные о продажах, которые я собираю для большей части, но я собираюсь вернуться к нашему любимому предмету политики, чтобы проиллюстрировать, как использовать кластеризацию данных для прогнозирования следующего набора избирателей. ты хочешь пойти после.

В прошлый раз вы могли вспомнить, что мы провели некоторый базовый регрессионный анализ, корреляции, а затем создали некоторые модели и ансамбли для общей картины выборов в более чем 3100 округах США. Сегодня мы собираемся рассмотреть часть этих данных, чтобы увидеть, сможем ли мы (под мы я имею в виду большую машину в облаке!) находить кластеры данных точки, которые указывают на выигрышную комбинацию, а затем применяют ее к большему набору данных.

Вот что я сделал:

Загрузите отличные данные о выборах с Data.World или где-нибудь еще, чтобы получить результаты выборов в формате csv. В моем наборе есть некоторые проприетарные данные, поэтому я пока не сделаю их доступными.

Затем создайте учетную запись на BigML.com, если вы еще этого не сделали. Перейдите на панель управления и загрузите туда свои данные в источники. (Мой файл назывался cc4.csv, но вы также можете использовать XLS). Не забудьте поставить целевое поле последним. В моем случае последний столбец, который у меня был в моем CSV-файле, был полем, в котором указывалось, какой кандидат выиграл этот округ.

Щелкните файл и создайте набор данных:

Затем щелкните этот набор данных и выберите «Фильтровать набор данных» и сузите данные до штатов поля битвы: Колорадо, Флориды, Айовы, Мичигана, Невады, Нью-Гэмпшира, Северной Каролины, Огайо, Пенсильвании, Вирджинии и Висконсина. Вернитесь к исходному набору данных и сделайте то же самое, но на этот раз исключите состояния поля битвы.

Теперь у вас должно быть 3 набора данных: 1) временный набор данных из исходных данных (мы можем проигнорировать это или поиграться с ним позже); 2) набор данных поля битвы и 3) исключенный набор данных поля битвы.

Теперь начинается самое интересное. Щелкните свой набор данных поля битвы и выберите кластер в 1 клик:

Приложение Cluster на BigML.com найдет группы округов с похожими результатами. Например, большой круг (называемый «центроидом») красного цвета показывает, что Трамп составляет 65%, он показывает в среднем немного более старшую возрастную демо, меньший индекс разнообразия и показывает негородские цитадели.

Это интересно, но оно не поможет Трампу завоевать больше округов в следующий раз. В политике вы проводите время, ориентируясь на рентабельность. Эти округа с 65% голосов Трампа, вероятно, не нуждаются в таком особом внимании, и я легко могу их идентифицировать по всем направлениям. Давайте посмотрим на другой центроид слева. Обратите внимание, что у него есть небольшая победа Трампа с 47% голосов, и, хотя он отмечает, что этот кластер находится на Глубоком Юге, этот район является средним метро.

Теперь наша теория и наша цель становятся очевидными: есть ли ДРУГИЕ страны за пределами поля битвы, на которые Трамп мог бы нацеливаться, отражая этот 47-процентный центроид?

Пакетная обработка центроида позволяет нам сопоставить набор данных с центроидом и загрузить результаты. Ниже показан снимок экрана, на котором я сопоставил центроид поля битвы с сохраненным мной набором данных, не связанным с полем битвы.

Получившийся файл XLS, который я скачал, показал 182 округа в штатах, не являющихся полями сражений, которые аналогичны центроиду 47%. Трамп уже выиграл более 100 из них, так что оставшиеся 75 - моя цель.

Хиллари одержала победу в Миннесоте, а Трамп дал ей возможность побороться за свои деньги - точно так же, как он сделал это в неожиданных штатах Висконсин и Мичиган. Вот примеры 5 округов в том штате, в котором Трамп почти победил:

Итог: использование машинного обучения для поиска понимания в кластерах точек данных может дать вам серьезный импульс для поиска других возможностей для достижения успеха. В политике и дальше… в маркетинге и продажах!

- об авторе:

Джастин Харт - старший консультант.

Его основная цель: проникнуть в глубины новейших технологий и воплотить их в стратегиях высшего руководства для улучшения работы отделов маркетинга и продаж.

укороченная версия: mktg + bizdev + ai

Джастин - признанный докладчик о современных маркетинговых тенденциях. В настоящее время он работает с несколькими компаниями, применяя передовые технические инструменты, такие как машинное обучение и искусственный интеллект, к основам бизнес-воронки.

Вы можете найти его работы на сайте justinhart.biz.
Напишите Джастину на justinhart.biz в gmail.
В твиттере @justin_hart.
На носителе Джастин Харт

У Джастина более 20 лет опыта работы в качестве старшего руководителя в уже существующих и начинающих компаниях и даже в политических кампаниях (в качестве старшего цифрового директора кампании Митта Ромни). В настоящее время он проживает в Южной Калифорнии.

Шаг за шагом: как кластеризовать данные с помощью глубокого машинного обучения

Вопросы по теме