Как вы себя чувствуете при этой статье?

Использование науки о данных для прогнозирования эмоционального резонанса статей New York Times для лучшего размещения рекламы

В прошлом году отдел рекламы в The New York Times задал вопрос: можем ли мы точно предсказать эмоции, которые вызывают статьи в Times? Если это так, мы могли бы дать рекламодателям возможность размещать объявления, более релевантные контексту, в котором они показываются. Чтобы исследовать эту идею, команда Data Science запустила Project Feels - проект по пониманию и прогнозированию эмоционального воздействия статей Times.

Короче говоря, мы построили алгоритмы прогнозирования с большими объемами данных, собранных с помощью краудсорсинга. Наши прогнозы имели качественный смысл, и мы провели успешные эксперименты, продемонстрировавшие, что эмоциональная реакция читателей положительно коррелирует с вовлечением в статьи. Этот подход, получивший название перспективный таргетинг, был одним из первых информационных продуктов, запущенных nytDEMO, новой инициативой, направленной на то, чтобы помочь рекламодателям размещать правильные маркетинговые истории с правильными статьями.

Для ясности: это рекламный проект, сделанный без согласования с отделом новостей; его выводы никогда не повлияют на наш новостной репортаж или другие решения редакции.

Сбор данных

Чтобы научиться предсказывать эмоции по статьям, нам сначала потребовались правильные данные. Мы опросили более 1200 читателей, которые добровольно участвовали в создании нашего первоначального набора данных. Это был первый раз, когда The New York Times систематически собирала данные для машинного обучения.

Мы спросили респондентов, как они себя чувствовали при чтении серии статей, и попросили их выбрать из ряда различных категорий эмоций (которые были изучены в ходе более ранних экспериментов), а также категорию Нет эмоций.

Согласно исследованию Pew Research Center, краудсорсинговые респонденты в целом соответствуют типу пользователей, которых мы хотели изучать для этого проекта, поскольку они в основном имеют опыт работы в Интернете, они моложе, образованы и говорят по-английски.

Очистка данных

Мы знаем, что в платных онлайн-опросах большинство респондентов дают вдумчивые ответы, но некоторые респонденты ускоряют опросы и дают бессмысленные ответы. Мы предприняли несколько шагов, чтобы ограничить такое поведение, в том числе установили жесткое ограничение на количество задач, которые каждый респондент мог выполнить за пакет - это потребовало настройки внешнего API для записи квоты каждого респондента.

Это улучшило разнообразие респондентов и ограничило влияние любого одного неизбирательного респондента; Как мы узнали из предыдущих тестов, неизбирательные респонденты, как правило, выполняют 1000 или более задач за короткое время или мгновенно.

Еще один способ, который мы защищали от неизбирательных респондентов, заключался в мониторинге последовательности ответов: искренние разногласия часто возникают по определенным типам статей - например, по очень спорным или политическим статьям - и следуют определенным эмоциональным паттернам. Например, статья о политически мотивированном твите может вызвать у разных людей либо надежду, либо ненависть. Респондент, скорее всего, будет действовать из лучших побуждений, если будет следовать этим образцам несогласия, но небольшое количество наших респондентов явно выпадали в своих ответах.

После сбора данных мы выявили и удалили неверные данные. Исследователи обычно используют небольшой набор предварительно размеченных примеров или золотой набор для выявления неизбирательных респондентов. Поскольку у нас не было доступного золотого набора, мы использовали статистические методы для измерения времени выполнения задачи и несогласия, как описано выше.

Моделирование

Активное изучение

Мы загружали наши статьи несколькими партиями, что дало нам прекрасную возможность правильно выбрать статьи.

По сути, задавая респондентам вопросы о сложных статьях, мы получали больше информации, чем если бы мы спрашивали о простых статьях. Выбор более сложных элементов может помочь алгоритму машинного обучения достичь высокой эффективности прогнозирования с ограниченными данными. Идентификация этих статей в последовательных пакетах называется активным обучением, то есть процессом определения того, что является сложным, и выявления статей, соответствующих этому описанию.

Мы постарались создать наиболее информативный набор данных, что означало пометить статьи, которые труднее всего классифицировать. Для этого нам нужно было определить, что для нас значит трудное.

Хороший способ оценить сложность - увидеть, насколько предсказания наших моделей близки к случайным предположениям.

Чтобы понять это, представим, что вам нужно определить, вызывает ли определенная статья надежду. Вы знаете, что 50 процентов всех статей вселяют надежду, но вы все еще не уверены, прочитав эту конкретную статью. Безопасный выбор - угадать и сказать, что статья с 50-процентной вероятностью пробуждает надежду, потому что, согласно Закону больших чисел, это предположение чаще всего будет правильным.

Это означает, что когда наша модель дает оценку эмоции, близкую к средней, она тоже сбивается с толку: текст статьи X не помогает ей в предсказании. Как и в приведенном выше примере, модель (как и человек) по умолчанию использует «безопасный» прогноз. (Для справки: это статьи с апостериорными ожиданиями или p (y | x), близкие к их априорному ожиданию, или p (y)).

Чтобы научить нашу модель делать это, мы сначала собрали данные о пакете случайно выбранных статей, затем изучили исходные модели прогнозирования и использовали эти исходные модели для оценки вероятности того, что статья без тегов будет содержать эмоцию. Мы делали это итеративно, отбирая новые наборы статей для оценки, затем обновляя наши модели и переоценивая.

Обработка данных таким образом значительно повысила нашу производительность. Мы продолжали отбирать партии таким образом до тех пор, пока точность наших моделей не перестала улучшаться на основе дополнительных данных.

Исследуемые модели: глубокие и мелкие

Моделирование в науке о данных часто включает итеративное тестирование различных типов моделей, начиная с более простых моделей и интерпретируя их конкретные недостатки, чтобы определить, какие сложные модели следует попробовать.

Мы исследовали три категории моделей для этого проекта:

  • Линейные методы обычно используются, когда требуются простые интерпретируемые модели. Они предполагают, что в данных не существует никакой структуры: линейные модели плохо фиксируют взаимодействия функций или нелинейность характеристик-результатов (я подробнее расскажу, что это означает ниже). В нашем случае мы использовали их для проверки работоспособности, базовых показателей и активного обучения.
  • Методы ансамбля на основе дерева используются, когда требуется более высокая точность. Эти методы являются универсальными в том смысле, что они используются, когда структура данных неизвестна: они могут улавливать все возможные взаимодействия функций и нелинейности результатов.
  • Глубинные методы используются в тех случаях, когда методы ансамбля могут быть улучшены путем включения предварительных знаний о структуре данных. Например, мы знаем, что предложения имеют структуру - слова, которые появляются последовательно, часто влияют на значение друг друга, поэтому локальные взаимодействия между словами, вероятно, более важны, чем отдаленные. Я расскажу об этом подробнее ниже.

Линейные методы

Линейные модели были первыми моделями, которые мы опробовали из-за их простоты и интерпретируемости. В качестве входных данных модель использовала частоту слов, но не соблюдала порядок слов. Например, заголовок «Trump Tweets‘ Trump! ’» Будет обработан как «‘ Tweets ’= 1,« Trump ’= 2,…‘ Sleeps ’= 0». Это было похоже на то, как если бы человек читал слова заголовка не по порядку, оценивал эмоции каждого слова и затем складывал их. Ясно, что было много чего упустить.

Хотя эти модели работали ниже наших целевых показателей, мы смогли проверить слова, которые, по словам линейной модели, наиболее положительно связаны с каждой эмоцией. Таким образом, слово «ученый» чаще встречается в статьях, вызывающих интерес, а слово «пара» - в статьях, вызывающих любовь.

Ансамблевые методы на основе дерева

Чтобы использовать модели, которые могут лучше оценивать контекст, мы затем обратились к методам ансамбля на основе дерева. Используя один и тот же стиль ввода (например, «Tweets» = 1, «Trump»: 2,… «Sleeps» = 0 »), древовидные ансамбли могут рассматривать все слова сразу, прежде чем оценивать эмоции, которые могут фиксировать структуру и покажите, как слова влияют друг на друга.

Например, собранные нами данные показывают, что слово «ядерный» само по себе может вызвать страх, но оно вызывает надежду при наличии «переговоров». Левая панель на изображении ниже иллюстрирует это утверждение, тогда как правая панель иллюстрирует другой аспект деревьев. . В отличие от линейной модели, где, скажем, если слово «атака» вызывает страх, а затем «атака», использованная в 10 раз, вызывает больше страха, древовидные модели могут уловить нелинейность.

Нелинейность между характеристиками и результатами в реальной жизни возникает постоянно. Например, если в статье используется слово «Экономика» только один раз, это может быть статья с отчетом о вакансиях. Это вселяет надежду. (Примечание: текущие модели были ориентированы на респондентов из США и, таким образом, отражали эмоциональную реакцию жителей США на новости.)

Ансамблевые модели превзошли нашу линейную модель, поэтому мы полагаем, что тщательное моделирование взаимодействий и нелинейных эффектов может улучшить точность еще больше.

На данный момент у нас было достаточно доказательств, чтобы поверить в то, что методы глубокого обучения будут работать.

Методы глубокого обучения

Глубокое обучение или нейронные сети со многими уровнями часто используются для моделирования определенных сложных типов ввода, таких как последовательности слов или пиксели в изображении. Различные предположения о способе взаимодействия этих функций - например, ближние слова могут взаимодействовать больше, чем дистальные - могут быть закодированы в сетевой структуре.

Методы глубокого обучения обычно требуют больших наборов обучающих данных для хорошей работы (порядка миллионов примеров). Размер нашего набора данных был слишком мал для многих архитектур, с которыми мы экспериментировали. Мы использовали предварительно обученные слои для улучшения тренировки.

В целом, мы применили классификатор максимальной оценки для каждой эмоции, измеренный с использованием площади под кривой (AUC) в качестве метрики точности из-за несбалансированного характера меток. Мы обнаружили, что в целом глубокие архитектуры дают нам повышение производительности для прогнозирования многих эмоций, но не превосходят ансамблевые методы для всех из них.

Все наши тесты на точность были рассчитаны на основе статей, опубликованных после статей, использованных для обучения модели. Это помогло нам оценить, как наши модели будут работать в новостных событиях, возникающих после обучения.

Это было важно для нас, потому что не давало нашим моделям переоснащаться по темам. Например, если в течение определенного временного окна каждая статья о торговле была о торговых войнах, модель узнала бы, что «торговля» всегда приводит к страху, не учитывая, что в новых контекстах «торговля» может вызывать надежду. Мы хотели, чтобы наши модели фокусировались на языковых моделях, которые сигнализируют об эмоциях, а не на темах.

Представление

Качественные результаты

Так выглядит наша работа на практике. Ниже приведен образец статей, которые наши модели определили как имеющие высокий уровень определенных эмоций (статьи не были включены в нашу обучающую выборку). Результаты выглядят точными, но мы постоянно отслеживаем их логичность.

  • Пожилая пара по имени Харви и Ирма предложили передышку после летних бурь (Любовь)
  • Лекарства от изжоги связаны с риском рака желудка (Страх)
  • Город будущего? Проблема в Торонто - это люди, а не технологии (Интерес)

Количественные результаты

Чтобы оценить, насколько хорошо эти модели могут различать статьи, мы в партнерстве с отделом рекламы и маркетинга The Times провели кампанию по повышению эффективности рекламы.

Рекламные объявления сравнивали со статьями, получившими наибольшее количество баллов в каждой эмоциональной категории (и базовом уровне) в контролируемом эксперименте в течение двух дней. Мы отслеживали эффективность по множеству показателей. Наша цель состояла в том, чтобы увидеть, работает ли реклама в статьях с тегами эмоций лучше или хуже, чем мы контролируем, и работают ли эмоции по-другому.

В целом статьи, которые были первыми в эмоциональных категориях, таких как любовь, печаль и страх, работали значительно лучше, чем статьи, которые не были таковыми. Мы увидели существенное различие между статьями, помеченными эмоциями, что показывает, что эмоциональная реакция читателей на статьи полезна для прогнозирования рекламного взаимодействия.

Мы смогли построить эффективный набор моделей, которые предсказывали, что статьи вызовут эмоции у наших читателей. Мы проверили, что эти модели хорошо работают с течением времени как в автономных оценках, так и в выборочных проверках и онлайн-экспериментах.

Поскольку мы создали наш набор данных с помощью краудсорсинга, мы показали, что можем систематически учитывать отзывы читателей, чтобы получать новые идеи о наших данных.

Вам эта работа кажется интересной? Мы нанимаем! Приходите работать с нами.