Фредерик Филлу

Важной частью проекта оценки качества новостей является маркировка набора данных, то есть тысяч новостных статей. Этот процесс будет автоматизирован и основан на совместной фильтрации. (Часть серии о NQS.)

В процессе машинного обучения чем больше данных, тем лучше. Под данными я имею в виду маркированные данные: это кошка, собака, лампа и т. Д. Если вы строите модель распознавания изображений, перейдите в ImageNet. Это хранилище более 14 миллионов изображений, охватывающих множество вещей и упорядоченных в виде почти 22 000 синонимов или синсетов. Он в основном используется для исследований и финансируется Стэнфордом, Принстоном, Google и A9 (движком Amazon для продуктового и визуального поиска, а также рекламы). Ради этой колонки я ввел термин кофейник. Вот что вернул ImageNet:

Независимо от того, создаете ли вы классификатор для животных, физических объектов, медицинских изображений, количество требуемых помеченных изображений обычно исчисляется сотнями тысяч (новая область включает в себя воссоздание «синтетических» или «искусственных» наборов данных для значительного уменьшения теоретически необходимого объема. , пока отложим в сторону).

Меня интересуют данные, которые по своей природе сложно классифицировать из-за их нечеткого и нестабильного характера, например новости.

Отсюда и мое исследование рекомендательных систем Netflix (тема была затронута на прошлой неделе). Когда в 2006 году Netflix объявил конкурс на повышение производительности своей системы rec, он предоставил обучающий набор из 100 миллионов оценок, которые дали 481 000 пользователей 18 000 фильмов. Это был довольно надежный набор данных: каждый фильм оценивали в среднем… 5000 пользователей. Набор данных, однако, отличался большим разбросом: в то время как средний пользователь оценил 200 фильмов, некоторые дали всего 3 оценки, в то время как один пользователь оценил 17 000 фильмов!

Имея в виду такой крайний пример, давайте посмотрим, как мы можем реалистично маркировать новости.

Во-первых, хотя список новостей почти бесконечен, мы не можем даже приблизиться к цифрам Netflix. В 2006 году, когда Netflix предоставил набор данных участникам приза, у Netflix было 6 миллионов подписчиков, все они были в США (сегодня у Netflix 109 миллионов). Это означает, что оценка выполнялась 8% пользователей в то время, что является довольно большим числом. Но:

  • Во-первых, для Netflix структуру аудитории и вовлеченность нельзя сравнивать с тем, что могут ожидать цифровые новостные СМИ. Люди, которые платили 9 долларов в месяц за свой сервис потокового видео, являются более активными пользователями и, следовательно, более склонны оставлять оценки и / или комментарии.
  • Во-вторых, интуитивно более приемлемо оценивать фильм сразу после его просмотра, в то время как финальные титры переходят, чем просить читателей, которые корпят над своими новостными страницами во время завтрака или в автобусе, оценивать статьи на лету.
  • В-третьих, результат, полученный таким образом, в любом случае не имеет особого смысла. В случае проекта оценки качества новостей рейтинги не предназначены для публичной публикации. Одна из причин заключается в том, что журналисты могут посчитать это неприемлемым, особенно когда большинству из них не часто предоставляется возможность писать подробные статьи, которые являются истинным отличием потока, в котором преобладают новости о сырьевых товарах.
    Оценка NQS направлена ​​на оценку добавленной стоимости, которую используют СМИ для конкретного освещения новостей с точки зрения ресурсов, опыта, тщательности процесса и этических гарантий. Этот показатель будет использоваться средствами массовой информации для улучшения своих поисковых систем и рекомендаций (см. Примечания к предыдущему понедельнику) или для увеличения доходов (подробнее об этом позже).
  • В-четвертых, рейтинг фильма - это процесс с одним критерием (пользователи ставят от нуля до пяти звезд, они не оценивают компоненты фильма); Классификация новостей включает несколько критериев, по крайней мере, с точки зрения построения обучающего набора для алгоритма машинного обучения.

Это приводит к нескольким дополнительным вопросам:

  • Кому следует тестировать рассказы? Случайные люди, механические турки, целевая группа людей, которые каким-то образом являются частью индустрии?
  • Какими должны быть субъективные критерии - предполагая, что каждый раз, добавляя одного, вы теряете значительное количество тестировщиков?
  • Как следует представлять истории: в их контексте или в базовой версии (см. Ниже)?

Предварительные тесты уже выявляют множественные предубеждения, которые существенно влияют на общее восприятие истории. Например:

  • Визуальный контекст: страница аккуратная или загроможденная; либо текст воспринимается как светлый или сверхплотный (расстояние между строками и абзацами, длина строк, гарнитура).
  • Плотность гиперссылок на странице и размещение дополнительных предложений чтения (и их источник: рекомендации третьих сторон или издателей).
  • Предметная близость к читателю (которая отличается от такой близости, как политика, наука, спорт); во многих случаях редактирование влияет на близость / привлекательность произведения.
  • Структура заголовка (длина, читаемость, тональность) - очень важный индикатор статуса статьи.
  • Отображение авторов также имеет решающее значение. Голая авторская строка отправит неверный сигнал в отличие от другой, связанной с биографией автора и доступа к ее работам. Поэтому новый стандарт Доверительный проект так важен для качественной оценки новостного потока.

Очевидно, это требует подтверждения в большем масштабе. Для проекта NQS мы работаем над тестовым интерфейсом, который будет выпущен в ближайшие недели. В основном он будет адресован людям, занимающимся новостным бизнесом, поскольку мы не намерены предлагать стимулы для тех, кто добровольно согласится принять участие. Должно быть не более пяти субъективных критериев (больший набор поддающихся количественной оценке сигналов обрабатывается в другом месте). И мы решили, что истории будут представлены в урезанной версии, чтобы не отвлекать внимание и не было визуальной предвзятости.

Примите участие в предстоящих оценочных тестах NQS: зарегистрируйтесь здесь ◀ ︎

- [email protected]