Прогноз активности в социальных сетях с помощью Reddit r/Place

Алекс Кремянски, Гай Закс и Омер Ной

Это сопутствующая статья к статье, представленной для курса НЛП и социальной динамики. Это менее технично и с GIF-файлами, показывающими пользователей Activity.

Абстрактный

Социальные сети в онлайн-сообществах растут по всему миру. Из Facebook, через Reddit и Twitter люди ежедневно взаимодействуют друг с другом. Наша способность учиться и предсказывать поведение пользователей имеет важное значение для многих веб-компаний. Чем больше пользователей взаимодействует, тем больше данных собирается. Однако большая часть данных не имеет маркировки, и применение машинного обучения затруднено. В этой статье мы предлагаем четыре полууправляемые модели для прогнозирования активности в социальных сетях.

О Reddit r/Place

Reddit r/place был первоапрельским событием 2017 года. Он включал в себя онлайн-холст, который зарегистрированные пользователи могли редактировать, изменяя цвет одного пикселя из 16-цветной палитры. Пользователь может размещать один пиксель каждые 5 минут. Мероприятие длилось 72 часа и продемонстрировало впечатляющее сотрудничество, конфликты и даже вандализм в течение этих 72 часов.

Сначала пользователи добавляли точки почти случайным образом, красочными, но бессмысленными кластерами в основном в центре и по углам. Затем появляется первая коллаборация:

Да, первая совместная работа Reddit на r/place — это рисование члена, причем не какого-нибудь члена, а известного малозатратного мема с членом. но это только первый шаг в сотрудничестве, вандализме и таланте, продемонстрированном на этом мероприятии, и именно здесь мы вступаем в игру. функции, сеть активности и мета-функции (возраст учетной записи, количество сообщений и комментариев и т. д.).

Эксперимент

Архитектуры

В полууправляемом обучении (SSL) используются как размеченные, так и неразмеченные данные. Методы SSL используют немаркированные данные для модификации гипотезы, полученной из помеченных данных. Мотивация использования SSL здесь заключается в том, чтобы оценить его использование в
домене других социальных сетей, где помеченных данных мало.
Чтобы создать полуконтролируемую среду, мы разделили наш набор данных на помеченные и неразмеченные наборы. . Мы оценили наш метод, используя три помеченных размера набора:

20% от размера обучающей выборки
40% от размера обучающей выборки
60% от размера обучающей выборки

Мы реализовали SSL в 4 архитектурах:

Тренировка с несколькими источниками
Три тренинга из одного источника
Совместное обучение из нескольких источников
Совместное обучение из одного источника

совместное обучение

Мы экспериментируем с методом разделения просмотров: (а) используем все функции и случайным образом разделяем их (один источник); и (b) использование текстовых признаков в качестве первого представления и мета-признаков и сетевых признаков в качестве второго представления (множество источников).

тройное обучение

мы используем две реализации трехстороннего обучения: (а) модель с несколькими представлениями и несколькими источниками; и (b) модель с несколькими представлениями и одним источником. Важно отметить, что, используя модель с несколькими источниками, мы можем проверить и сравнить валидацию предположения о совместном обучении для независимых представлений — в режиме тройного обучения.

Результаты:

Мы оценили производительность наших 4 моделей и 3 настроек набора SSL-пометок на 30% набора данных. Очевидно, но важно проверить — для всех моделей чем больше начальных меток, тем выше точность.
На основе AUC, F1 и точности модели ранжируются следующим образом:

Совместное обучение из нескольких источников
Совместное обучение из одного источника
Три тренинга из одного источника
Тренировка с несколькими источниками

Как упоминалось выше, проблемы с SSL усложняются из-за отсутствия помеченных данных. Поэтому для лучших результатов мы предлагаем использовать более высокий порог достоверности, чем в «обычной» контролируемой среде обучения. Мы разделяем прогнозируемые экземпляры на 10 сегментов на основе процентилей оценки достоверности (оценка достоверности основного класса).
Хотя средняя точность составляет 58 %, когда классификатор более надежен (первый и последний столбцы), точность увеличивается. резко, до уровня 80% (рост: 38%).

Трехуровневое обучение из одного источника, 60% помеченного размера набора, точность по процентилям доверительного интервала:

Выше мы видим активность 13 пользователей на r/place, которую наш эксперимент классифицировал как активную с высокой достоверностью. К сожалению, эти люди были довольно сегментированы, чтобы создать конкретный кусок на холсте, который был r/местом.

Анекдот

Выше мы отобразили самого активного пользователя на холсте размером более 600 пикселей во время события. (напоминание: 1 пиксель каждые 5 минут в течение 72 часов). Даже при таком уровне активности и целеустремленности пользователь не создал ничего на этой ровной игровой площадке. Это зрелище «антииндивидуальности», «анти-одинокого волка», человек не окажет долговременного влияния на эту игровую площадку, если он не будет вдохновлять, вести и сотрудничать с другими людьми для достижения общей цели. Эта цель может быть грандиозной и изменить общество, каким мы его знаем. но иногда эта цель может быть такой же простой, как нарисовать Дикбатта.