Становится вирусным: разработка модели машинного обучения для взаимодействия с общественными активистами.

Этот блог является частью серии сообщений, которые я пишу в рамках своего исследования и изучения процессов международного взаимодействия с пользователями и машинного обучения под руководством доктора Сайфа Сэвиджа из Вашингтонского университета. Мы изучаем дизайн интеллектуальных интерфейсов с использованием моделей машинного обучения и взаимодействие разработчиков в разных культурах и местах с распределенными командами.

В этом посте я разрабатываю и обсуждаю стратегии для социальных сетей и конвейеров машинного обучения, которые можно использовать для оценки того, может ли онлайн-кампания стать вирусной. Для целей контекста модель будет нацелена на профсоюзы латиноамериканских рабочих, организующих кампании против несправедливых условий труда, жестокого обращения с начальниками и сотрудниками. Профсоюз – это организованное объединение работников, созданное для защиты и продвижения их прав и интересов со своими работодателями. Кампания по организации профсоюзов может по сути быть движением или движением в защиту прав или протестом против несправедливой ситуации. Термин «вирусный» в мире, управляемом социальными сетями, относится к тенденции изображения, видео или фрагмента информации быстро и широко распространяться от одного пользователя Интернета к другому.

Сейчас мы живем в цифровом обществе, и использование смартфонов и приложений широко распространено даже среди латиноамериканского населения в развитых и развивающихся странах. Этот факт дает возможность использовать социальные сети, такие как Facebook, Tweeter, и сайты, такие как coworker.org, для пропаганды улучшения условий на рабочем месте с использованием видео, текста и аудио и сбора данных от сторонников. Блоги профсоюзных организаций могут быть полезны для предоставления более подробной информации о кампаниях целевой аудитории.

Мотивации и стратегии

Организация трудовых кампаний может последовать примеру успешных коммерческих и политических кампаний, используя инструменты интеллектуального анализа данных и машинное обучение для выявления, привлечения и влияния на клиентов и избирателей. Профсоюзы могли бы использовать социальные сети, машинное обучение и большие данные для анализа и распространения части контента среди других пользователей с эмоциями, когда они его видят, побуждая их продолжать делиться контентом по очереди. Обычно именно контент, вызывающий эмоции, характеризующиеся активацией, положительной или отрицательной, может стать вирусным.

Ключевые аспекты продвижения кампании социального активизма могут включать в себя:

Кампания носит личный характер и посвящена человеку, представляющему других людей в тех же обстоятельствах. Люди с большей вероятностью поддержат человека, связанного с каким-то делом, чем дело, затрагивающее многих людей.
Сделать кампанию социально интерактивной, в которой участники могут видеть, как выполнялась задача и как другим людям было предложено ее выполнить.
Кампания проводится надежной организацией.
Сохраняйте информацию простой, чтобы в ней захотело принять участие огромное количество людей.

Организация людей в Интернете будет особенно эффективна в отношении миллениалов, чье присутствие на рынке труда очень значительно, а также они поддерживают профсоюзы.

Схема интеграции конвейера машинного обучения и платформ социальных сетей

Конвейер машинного обучения и результат модели будут механизмом рекомендаций, который оценивает похожие кампании и оценивает, какие информационные элементы распространяются быстро и широко, а какие другие элементы могут нуждаться в изменении или просто не работают.

Необработанные данные

Данные будут собраны из кампаний с аналогичными целями в разных социальных сетях, чтобы определить общие заголовки, ключевые слова в тексте, показатели взаимодействия, такие как лайки, ретвиты, изображения и собранные подписи. API-интерфейсы социальных сетей можно использовать для извлечения необработанных данных, таких как:

Страницы Facebook с сообщениями и соответствующими лайками и антипатиями
Актуальные темы в Твиттере с голосами, лайками, дизлайками
Твиттер ретвиты
Текст разговора в целом.

Подготовка и очистка данных

На этом этапе необработанные данные, которые могут быть собраны в текстовые файлы, такие как CSV, формат JSON и просто текст, должны быть проанализированы и нормализованы, чтобы их можно было хранить в хранилище данных, гибком для выполнения поиска и создания смысл данных. Весь текст необходимо нормализовать, удалив стоп-слова, удалив хэштеги, смайлики и т. д. из постов в социальных сетях. Будут включены связанные хэштеги вместе с их соответствующими показателями тенденций, такими как количество неприязней и лайков для данной кампании активизма. Субъективные выражения, включая убеждения, мнения и взгляды, сохраняются.

Извлечение признаков

Содержимое данных, очищенное и сохраненное в хранилище данных, будет проанализировано на предмет поведения настроений. Чувства людей и их действия не могут быть организованы исключительно в бинарную категорию: положительные или отрицательные, такие как лайки или дизлайки в твиттере или посте в Facebook. Нам нужно больше контекста, чтобы по-настоящему понять, как люди относятся к контенту. Анализ настроений используется для собранных данных социальных сетей, чтобы лучше понять, как люди относятся к тому или иному контенту. Каждая найденная кампания может быть представлена в виде вектора, обозначающего географические местоположения, оценки настроений, количество ретвитов и количество публикаций в социальных сетях.

Обученная модель машинного обучения

Машинное обучение будет предсказывать, может ли кампания стать вирусной, основываясь на оценках настроений в точках данных, количестве людей и географическом распределении. Модель будет использовать контролируемое обучение с данными, смоделированными как задача классификации. Полярность настроений на основе обученных наборов данных будет определять оценки настроений.

Измерение успеха

Успех в модели определяется успешным прогнозированием того, станет ли кампания вирусной, что является истинным положительным результатом, и прогнозированием того, когда кампания не станет вирусной, что является истинным отрицательным результатом.