Саммит ReWork Deep Learning Summit, прошедший в прошлом месяце в Лондоне, позволил взглянуть на недавний прогресс в исследованиях и будущие тенденции в технологиях искусственного интеллекта. В двухдневном мероприятии приняли участие ведущие ученые и инженеры из Facebook, MIT Media lab, DeepMind и других ведущих институтов.

Первым выступил инженер-программист Facebook Фабрицио Сильвестри, с отличием окончивший Пизанский университет по информатике. Сильвестри работал в Yahoo Labs Barcelona в Испании с 2013 по 2015 год, а затем присоединился к команде поисковых систем Facebook в Лондоне, Великобритания. Его исследования сосредоточены на данных и веб-добыче, веб-поиске, больших данных, поиске информации и компьютерной рекламе.

В своей презентации Сильвестри объяснил, что Facebook разрабатывает исследования контента по четырем основным причинам: уникальный мобильный контент и следы, социальные графики, аутентичная идентичность и персонализация интересов. Гигант социальных сетей использует большие нейронные сети, чтобы избавить людей от утомительной ручной разработки функций. Их метод отображения поисковых запросов на вложения в векторное пространство, например, доказал свою эффективность в сценариях, в которых проектирование функций затруднено, например, с изображениями и видео.

Сильвестри предложил использовать встраивание поисковых запросов для сведения к минимуму проблем, связанных с нехваткой словаря (OOV). Модель обучается с использованием триплетных потерь, и наиболее эффективный кодировщик представляет собой среднее значение вложений для униграммы слова + биграммы + трех-пяти символьных диаграмм после полностью подключенной сети.

Нажмите здесь, чтобы узнать больше об исследованиях и публикациях Сильвестри: http://pomino.isti.cnr.it/~silvestr/

Следующей была Агата Лапедриса, профессор Университета Оберта Каталонии и приглашенный исследователь Медиа-лаборатории Массачусетского технологического института (MIT). Она также является членом BCN Perceptual Computing Lab и Центра компьютерного зрения. Исследования Лапедризы включают понимание изображений, распознавание и описание сцен, а также аффективные вычисления.

Лапедриса подчеркнула важность технологий понимания сцены для автоматического распознавания эмоций - сложной задачи, над которой она работала последние десять лет. Автоматическое распознавание эмоций имеет ряд применений в средах, где машины взаимодействуют с людьми. Доступно коммерческое программное обеспечение для распознавания эмоций по мимике, поскольку большинство исследований по распознаванию настроения изображений сосредоточено на человеческих лицах.

Однако контекст изображения также важен для понимания эмоционального состояния людей. Лапедриса представила демонстрацию распознавания сцен. Учитывая изображение, система на основе CNN предсказывает категорию сцены и другие атрибуты и предоставляет тепловую карту, указывающую области в изображении, которые поддерживают вывод.

Щелкните ссылку, чтобы просмотреть демонстрацию: http://places2.csail.mit.edu/demo.html.
Последние статьи Лапедризы включают Распознавание эмоций в контексте (принято на CVPR 2017) и Места: база данных из 10 миллионов изображений для распознавания сцен. ».

Третьим докладчиком была старший научный сотрудник DeepMind Райя Хадселл, которая также работает в SRI International и группе Vision and Robotics в Принстоне. Исследовательский интерес Хадселла включает проблемы общего искусственного интеллекта (AGI), такие как непрерывное и переносное обучение, глубокое обучение с подкреплением и нейронные сети для навигации.

Презентация Хадселла была посвящена глубокому обучению с подкреплением в сложных средах. Ее команда предложила метод сквозного обучения с глубоким подкреплением, который позволяет компьютерам научиться ориентироваться в городах. Модель не может получить доступ к карте, и ей не дано ее текущее местоположение - она ​​должна полностью определить свое положение на основе фотографического содержания города в Google Street View.

Статья Хадселла Как научиться ориентироваться в городах без карты находится на arXiv.

Цян Хуанг из Центра обработки зрения, речи и сигналов (CVSSP) Университета Суррея работает над мультимодальной обработкой информации с использованием глубоких нейронных сетей.

Его презентация была посвящена синтезу изображений с использованием двухэтапных генерирующих состязательных сетей (GAN), в данном случае для рисования красочных изображений птиц с использованием лишь небольшого количества обучающих данных. Исследовательская группа Хуана смоделировала процедуру рисования изображения: от создания контуров до контуров и краев объекта, до добавления различных цветов и оттенков. Первая модель GAN генерирует форму объекта, вторая рисует монохромное изображение и так далее. Подход позволяет генерировать синтетические изображения с качеством, сопоставимым с реальными.

Щелкните здесь, чтобы прочитать статью Хуанга Синтез изображений с помощью двухэтапных генерирующих состязательных сетей.

Это было 4-е ежегодное европейское издание ReWork Deep Learning Summit. Предстоящие мероприятия ReWork включают Саммит по глубокому обучению и правительственный саммит по ИИ в Торонто 25 и 26 октября; и саммит по машинному обучению для DevOps и прикладного искусственного интеллекта в Хьюстоне 29–30 ноября.

Автор: Цзы Шао | Редактор: Тони Пэн, Майкл Саразен

Подпишитесь на нас в Twitter @Synced_Global, чтобы получать ежедневные новости об ИИ.

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.