Использование эмодзи стало новой формой социального общения, что важно, поскольку оно может помочь улучшить системы общения, такие как приложения чата. В этой статье исследуется использование и семантика смайликов с течением времени для анализа сезонных колебаний использования смайлов. Кроме того, авторы разрабатывают модель прогнозирования эмодзи на основе информации о времени.

Вклад

В прошлом проводились многочисленные исследования предсказаний смайликов (см. Известную работу Felbo et al., 2017), но ни одна из них не учитывала временную информацию. Временная корреляция между смайликами и сезонными событиями исследуется и используется для устранения неоднозначности значений смайликов.

Пример

Рассмотрим эмодзи листового клевера (🍀), он обычно ассоциируется с пожеланиями удачи круглый год, кроме марта, где он в основном используется для выражения событийных ситуаций, связанных с вечеринками и выпивкой (в связи с днем ​​Святого Патрика).

Проблемы

  • Это исследование демонстрирует, что временная информация полезна для предсказания смайлов даже для смайликов, которые не связаны со временем (💪 и ❤️).
  • Смайлы по своей природе субъективны, поэтому их семантическое значение сложно проанализировать.

Набор данных

Twitter используется для сбора корпуса из 100 миллионов твитов в США и организован следующим образом:

  • Сезонный набор данных эмодзи - данные разделены на четыре подмножества по сезонам: весна, лето, осень и зима (см. рисунок ниже).
  • Набор данных прогнозирования эмодзи - данные сводятся к твитам, которые содержат только один часто встречающийся смайлик (смайлик должен принадлежать к 300 часто используемым смайликам).

Семантика и использование сезонных эмодзи

Модели встраивания слов со скип-граммой обучаются с использованием четырех подмножеств сезонных наборов данных. Эти модели предоставляют информацию, которая в основном помогает описать смайлики с точки зрения их семантического сходства друг с другом. (Подробнее см. В документе)

Сравнивая 10 лучших смайлов, связанных с каждым смайликом в пространстве встраивания, было обнаружено, что на смайлики, связанные с музыкой, животными, сладостями и эмоциями, не влияет сезонность (например, 🎶, 🎼, 🍦, 🐠, 😂, 🎸) . Это означает, что эти смайлики сохраняли значение в любое время года.

Напротив, смайлики, связанные со спортом (например, 🏀, 🏆), различались по значению в зависимости от сезона, вероятно, из-за высоких сезонов, когда проводятся спортивные состязания. Еще один интересный смайлик, связанный со школой (🎓), менял значение в зависимости от сезона; Весной он ассоциировался со смайликами для вечеринок, а осенью - со школьными смайликами. Посмотрите 10 самых популярных смайликов за сезон для смайликов сосны (🌲) на рисунке ниже. Сильно зависит от сезона, не правда ли? Вы можете догадаться, почему? (подсказка: на открытом воздухе против Рождества). (См. Бумагу для множества интересных открытий)

Прогнозирование смайлов

Второй набор данных, который включает 300 классов смайликов и всего 900 000 твитов (3000 твитов на класс), используется для предсказания смайлов. Архитектура модели прогнозирования эмодзи выглядит следующим образом: вложения символов, встраивания слов и встраивания даты объединяются как с помощью подхода раннего, так и позднего слияния. В результате получаются две модели (Ранняя и Поздняя). Обучается третья модель (W / O), которая полностью игнорирует вложения даты. (См. Статью, чтобы узнать, как строятся эти вложения)

Результаты

Показатели точности, отзыва и F1 указаны для всех моделей в таблице ниже. Мы можем заметить, что, комбинируя информацию о времени с помощью раннего слияния, модель Early превосходит другие модели.

Смайлы, набравшие больше очков в F1 (без даты по сравнению с ранней датой), представлены в таблице ниже. Вы определенно можете заметить, что многие смайлики привязаны к сезону (например, 🍀, 🌒) и, следовательно, получают выгоду от встраивания дат. Даже смайлики, не связанные со временем (например, 🖤, ❤️, 💪), выигрывают от временной информации.

Заключение и дальнейшая работа

  • Предложена мультимодальная архитектура для прогнозирования эмодзи на основе глубоких нейронных сетей.
  • Дополнительный анализ семантики и использования эмодзи в определенное время дня или недели может помочь улучшить встраивание дат и общие модели прогнозирования.
  • У этой работы есть много возможностей для улучшения, и это может быть очень интересная тема для объединения с распознаванием эмоций, обнаружением событий и компьютерными исследованиями здоровья.

Ссылки

Есть еще вопросы по этой статье? Отправьте мне DM @ omarsar0.