Использование модели трансформера BERTweet для классификации твитов с высоким уровнем вовлеченности.
Аналогично двум предыдущим статьям,
здесь я рассчитываю категориальную переменную взаимодействия с твитами (независимо от того, превышает ли сумма лайков, комментариев и репостов пороговое значение 10), используя тот же набор данных выбранных твитов о ведущих компаниях NASDAQ с 2015 по 2020 год собраны на следующие бумаги:
М. Доган, О. Метин, Э. Тек, С. Юмушак и К. Озтопрак, «Оценка спекулянтов и влиятельных лиц на фондовом рынке с использованием социальных сетей», Международная конференция IEEE по большим данным (большие данные), 2020 г., Атланта, Джорджия, США, 2020 г., стр. 4559–4566, doi: 10.1109/BigData50022.2020.9378170.
Все подробности анализа (на основе моей адаптации следующего кода от Синана Оздемира) можно найти в этой общедоступной записной книжке Kaggle.
После обучения подвыборки из 300 000 твитов всего за 1 эпоху (процесс занимает около 1,5 часов Графический процессор NVIDIA TESLA P100 доступен для Пользователи Kaggle), взвешенная точность увеличилась с 50 % (полученная в результате случайной передискретизации) до 95 %.
В результате вывода модели следующий образец твита автоматически сгенерирован из одной из моих предыдущих статей на Medium,
Why do employees leave companies — analysis of IBM employee data https://link.medium.com/jMw17FDm8yb
получает показатель вовлеченности всего около 0,0013, что соответствует очень малой вероятности получения значительного вовлечения.
Изменение того же твита на верхний регистр дает лишь небольшое улучшение: показатель вовлеченности составляет около 0,0019.
То же самое верно и для примера перефразировки образца твита, как
Why do employees leave companies??? Look here for analysis of IBM employee data https://link.medium.com/jMw17FDm8yb
приводит к оценке вовлеченности около 0,0021.
Наконец, неудивительно, что если кто-то пишет в Твиттере о $TSLA и Илоне Маске, показатель вовлеченности намного выше.
Например, следующий пример твита:
Buy $TSLA right now says Elon
получает оценку вовлеченности около0,62!
Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.
Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.