Отдел исследований и разработок Deezer отправляется на NIPS 2016

В этом месяце Химена и Ромен из отдела исследований и разработок Deezer побывали в Барселоне, чтобы посетить NIPS — Neural Information Processing Systems, одну из главных конференций, посвященных искусственному интеллекту.

Там были многочисленные ученые и компании, занимающиеся машинным обучением: Google, Facebook, DeepMind, Microsoft Research, Amazon, Criteo, а также многочисленные университеты со всего мира.

В этом году был установлен новый рекорд участников, более 6000 человек, что подтверждает важность этой области в промышленности и академии.

Были затронуты многие аспекты искусственного интеллекта, но в этом году самыми горячими темами стали следующие.

Обучение с подкреплением

Системы обучения с подкреплением (RL) могут научиться решать сложную проблему без необходимости в явном обучении тому, как это делать.

В последнее время с помощью архитектуры RL решались заметные проблемы: автоматический запуск игр ATARI (из необработанных игровых пикселей), победа над людьми в игре го, моделирование животных, которые учатся ходить и бегать, роботы-руки, которые учатся манипулировать объектами.

В рамках RL есть агент (например, игрок), живущий в среде (игре), который должен принять решение (например, выбрать направление), чтобы максимизировать вознаграждение (выигрышные очки).

Чтобы решить задачу, система RL изучает соответствие (отображение) пары (состояния агента, наблюдения за окружающей средой) действию, которое необходимо предпринять.

Мы видели, как крупнейшие компании по машинному обучению выпускают платформы искусственного интеллекта, на которых можно обучать системы RL: Universe для Open AI, DeepMind Lab для DeepMind от Google и Malmon (Minecraft) для Microsoft.

Генеративные сети

Генеративные сети — это системы, способные генерировать данные, например изображения, которые выглядят как настоящие изображения.

Недавно был предложен новый способ генерации изображений, основанный на двух нейронных сетях: одна сеть используется для генерации изображений, другая используется для различения фактического изображения от изображений, сгенерированных первой.

Таким образом, две части действуют друг против друга: дискриминатор пытается обнаружить поддельные изображения, а генератор пытается обмануть дискриминаторы: поэтому они называются состязательными.

Такая архитектура была предложена два года назад, но ей не хватало стабильности и способности генерировать реальные изображения: как видно ниже, изображения выглядят вполне реальными, если смотреть издалека, но выглядят очень странно, если присмотреться.

Таким образом, этим вопросам посвящено множество статей.

Помимо этих основных тем, наше внимание привлекли и другие темы:

  • Семинар по экстремальной классификации (то есть попытке классифицировать элементы с очень большим количеством меток) был довольно интересным, показывая, в частности, как мультимодальные подходы (например, с использованием как текстов, так и изображений) могут привести к более точным классификациям, чем мономодальные.
  • Забавный и интересный плакат был представлен людьми из Бостонского университета и Microsoft Research, где исследователи обнаружили, что пространство для встраивания слов (популярная структура для представления текстовых данных в виде векторов), полученная из новостей Google, содержит направление, которое закодированное гендерное предубеждение. Например, они обнаружили, что встраивание выявило неявный сексизм в тексте, создав геометрическое представление соответствия мужчина::компьютер программист и женщина::домохозяйка. Авторы также нашли способ удалить эти смещения из пространства встраивания.
  • Интересную демонстрацию показали пользователи Youtube. Они показали, как узнать сходство видеоконтента на основе набора данных youtube8M. Система была обучена предсказывать наземные видеоотношения (определяемые системой на основе совместного просмотра) только на основе визуального контента.
  • В другой интересной работе с использованием видео (с веб-сайта Flickr) исследователи из Массачусетского технологического института обучили систему решать задачу акустической классификации сцен/объектов, используя большой набор данных немаркированного видео. Им удалось перенести различающие визуальные знания из сетей классификации изображений в звуковое пространство, изучив акустическое представление звука естественных сцен. Они использовали необработанный звук в качестве входных данных для глубокой сети, которая обрабатывала звук и могла предсказывать объекты в видео только по звуку.

Так что в этом году мы многому научились на NIPS и имели возможность поделиться с исследователями из других технологических компаний!

Химена Ройо-Летелье и Ромен Эннекен
Исследователи Deezer