Представляем Deepnews Digest

На этой неделе Deepnews.ai выпускает свой первый публичный демонстратор - информационный бюллетень Deepnews Digest. (Это наш отчет о проделанной работе №4)

Deepnews Digest - это еженедельный информационный бюллетень, целью которого является демонстрация возможностей алгоритма оценки / ранжирования, который мы разрабатывали в течение 18 месяцев.

Принцип прост: мы выбираем тему, которая есть в новостях, и просматриваем выборку из 50 источников, от крупных публикаций до небольших специализированных изданий. Мы собираем несколько сотен статей, которые анализируются с помощью нашего самодельного алгоритма оценки. Модель возвращает электронную таблицу, содержащую URL-адрес статьи, заголовок, источник, количество слов в статье и оценку. Затем наш редактор Кристофер Бреннан вручную удаляет любой «шум», как правило, ложноположительные статьи, не относящиеся к теме. Он также будет проверять странности, такие как статья из 3000 слов, набравшая всего 1,8 (обычно это большой многотемный выпуск новостей), или статья из 500 слов, получившая оценку 4,1 (это может быть короткометражка с хорошо написанным углом из Quartz или Axios; нам потребовались месяцы, чтобы устранить обманчивое соотношение длины и качества…). Наконец, он напишет короткий текст, представляющий тему недели, и после нескольких проверок со стороны команды мы нажимаем кнопку «отправить».

Товар выглядит так:

Информационный бюллетень намеренно лишен всего бесполезного. Он сводится к списку интерактивных заголовков под упоминанием темы новостей, которая их вдохновила.

Мы не предоставляем оценку и не собираемся это делать. Причина двоякая:

Мы не хотим выступать в роли арбитра качества журналистики.
Фактическая оценка предназначена только для внутренних целей, либо для нас, либо для наших клиентов. Это мера, которая используется для классификации и анализа.

Сначала мы хотели создать редакционный бюллетень с небольшим списком ссылок с нашими комментариями. Но, проводя некоторые тесты, мы были поражены способностью нашей системы выделять большое количество хороших историй. Тогда мы задались вопросом: а почему бы не склониться к исчерпываемости и не предоставить большой выбор историй?

Мы устанавливаем следующие правила:

Максимальная релевантность статей выбранной тематике (что и является целью алгоритма).
Конкретные истории / уникальный ракурс. Под этим я подразумеваю отсутствие бесконечных дубликатов статей, в которых говорится об одном и том же - что является самой большой проблемой для большинства агрегаторов.

Первые версии информационного бюллетеня (заархивированные здесь) содержали 100 ссылок. Их оказалось слишком много (по результатам опроса, проведенного на нескольких десятках альфа-тестеров). Теперь нас осталось пятьдесят.

Что мы измеряем

Модель оценки Deepnews (DSM, как мы ее называем внутри) построена на обнаружении синтаксических и структурных паттернов, связанных с качественной журналистикой. Мы снабдили алгоритм сотнями тысяч статей, которые модель использует в качестве справочника для оценки поступающих историй.

Технология, лежащая в основе DSM

Мы построили около 55 версий базовой модели глубокого обучения DSM. Он основан на сверточной нейронной сети. ConvNets в основном используются для распознавания изображений, но мы перепрофилировали их, чтобы они соответствовали нашей цели. В нашем Отчете о ходе работы Deepnews № 3 от 25 февраля я подробно рассказал о структуре нашей модели глубокого обучения. В следующем месяце вместе с нашим ведущим инженером Виктором д’Эрбемоном мы опубликуем методологию. Но не код. Прямо сейчас модель практически невозможно перепроектировать (даже для нас), и мы намерены сделать ее максимально защищенной от несанкционированного доступа.

Что дальше с Deepnews Digest

Во-первых, мы хотим еще больше улучшить нашу способность извлекать и обрабатывать истории по широкому кругу тем и обеспечивать надежную оценку на постоянной основе. Модель оценки Deepnews дает удовлетворительные результаты при определенных обстоятельствах. Например, из-за того, как модель была обучена, она хорошо работает в деловых, социальных и политических статьях, но не так хорошо, например, в спортивных статьях.

Мы будем дорабатывать информационный бюллетень, исследуя наших бета-тестеров, чтобы увидеть, как концепция может быть улучшена и масштабирована, например, для создания серии индивидуальных информационных бюллетеней по любым интересующим темам.

Специальная версия листинга от Deepnews также будет включена в обновленную версию этой заметки понедельника, запланированной на осень.

Быть в курсе. Это только начало.

➜ А пока зайдите на Deepnews.ai
И ПОДПИСАТЬСЯ НА ДАЙДЖЕСТ DEEPNEWS

- frederic.filloux @ mondaynote.com