Я прочитал несколько сообщений, в которых утверждается, что CA смог использовать и улучшать данные Facebook, запускать очень сложный ИИ, выявлять микроцели и убеждать их с помощью рекламы в Facebook не голосовать за Клинтон, тем самым давая Трампу огромное (вероятно, огромное) преимущество.

У меня есть два контраргумента, и я хотел бы услышать другие мнения, особенно касающиеся перехода на AI/ML.

Во-первых, простая стратегия таргетинга даст то же самое; каждый политолог знает, кто и где колеблющиеся избиратели. Циничная стратегия убеждения латиноамериканцев в районе залива Сан-Франциско: ориентироваться на людей, которым нравится сальса и футбол, и запускать антиклинтоновскую рекламу; вряд ли гениальная стратегия.

Во-вторых, насколько сложно создать модель машинного обучения для идентификации этих людей, и дело не в алгоритмах.

Некоторый контекст

У CA было 270 тысяч пользователей, незаконно приобретенных у создателей приложения, эти люди использовали логин facebook в этом приложении; данные включают имена, адреса электронной почты, возрастную группу, язык; список их друзей в фб и людей, которые поставили «лайк» любому посту; они также смогли собрать те же записи для своих друзей, всего 87 миллионов записей.

Анализ, я думаю, они сделали

Можно построить сеть и идентифицировать кластеры; например, у меня 900 друзей и 154 лайкнули меня в прошлом; это дает показатель прочности отношений.

Алгоритм Giraf с открытым исходным кодом — это мощный инструмент кластеризации для сетей.

Сами по себе эти данные ничего не предсказывают. Он не включает потраченное время, интересы страницы, уровень вовлеченности в фб и многие другие сигналы.

Для контекста наиболее предсказуемыми элементами данных являются векторы встраивания поведения и интересов пользователей, это абстрактные числовые представления, которые используются для ранжирования рекламы.

Они утверждают, что удалили данные Facebook, чтобы прочитать контент пользователя. Это маловероятно, данные fb чрезвычайно сложно собрать, и не все является общедоступным (это не простая веб-страница, где известен DOM), а интерпретация текста — еще одна очень сложная проблема.

Они также сказали, что CA смогла улучшить данные; есть несколько поставщиков данных, которые сопоставляют очень подробные индивидуальные данные по электронной почте или именам (руководитель кампании Обамы основал компанию для этого); соответствующие ставки находятся в пределах от 25% до 30%; они содержат интересы, покупки, данные о местоположении и другие элементы.

Я не уверен, включена ли политическая принадлежность в эти сторонние наборы данных; если это так, то какой смысл в дополнительном прогностическом моделировании?

Проблемы

Предполагая, что у них есть более богатый набор данных, скажем, 30 миллионов, как они узнают, кто является избирателем? Кто либерал?

Какое неконтролируемое обучение они могли провести? Нашли ли они элементы, тесно связанные с политической принадлежностью/намерениями?

Если запустить контролируемое машинное обучение, как они могут «пометить» данные для обучения модели?

Я сомневаюсь, что CA смогла создать какую-либо модель ИИ с достаточно высокой степенью точности, если вообще смогла.

И опять же, если бы они это сделали, они бы просто заново открыли для себя тех же колеблющихся избирателей, о которых я упоминал выше.