Использование модели трансформера BERTweet для классификации твитов с высоким уровнем вовлеченности.

Аналогично двум предыдущим статьям,





здесь я рассчитываю категориальную переменную взаимодействия с твитами (независимо от того, превышает ли сумма лайков, комментариев и репостов пороговое значение 10), используя тот же набор данных выбранных твитов о ведущих компаниях NASDAQ с 2015 по 2020 год собраны на следующие бумаги:

М. Доган, О. Метин, Э. Тек, С. Юмушак и К. Озтопрак, «Оценка спекулянтов и влиятельных лиц на фондовом рынке с использованием социальных сетей», Международная конференция IEEE по большим данным (большие данные), 2020 г., Атланта, Джорджия, США, 2020 г., стр. 4559–4566, doi: 10.1109/BigData50022.2020.9378170.

Все подробности анализа (на основе моей адаптации следующего кода от Синана Оздемира) можно найти в этой общедоступной записной книжке Kaggle.

После обучения подвыборки из 300 000 твитов всего за 1 эпоху (процесс занимает около 1,5 часов Графический процессор NVIDIA TESLA P100 доступен для Пользователи Kaggle), взвешенная точность увеличилась с 50 % (полученная в результате случайной передискретизации) до 95 %.

В результате вывода модели следующий образец твита автоматически сгенерирован из одной из моих предыдущих статей на Medium,

Why do employees leave companies — analysis of IBM employee data https://link.medium.com/jMw17FDm8yb

получает показатель вовлеченности всего около 0,0013, что соответствует очень малой вероятности получения значительного вовлечения.

Изменение того же твита на верхний регистр дает лишь небольшое улучшение: показатель вовлеченности составляет около 0,0019.

То же самое верно и для примера перефразировки образца твита, как

Why do employees leave companies??? Look here for analysis of IBM employee data https://link.medium.com/jMw17FDm8yb

приводит к оценке вовлеченности около 0,0021.

Наконец, неудивительно, что если кто-то пишет в Твиттере о $TSLA и Илоне Маске, показатель вовлеченности намного выше.

Например, следующий пример твита:

Buy $TSLA right now says Elon

получает оценку вовлеченности около0,62!

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.