Мы использовали глубокие нейронные сети для анализа 100 000 изображений Сантьяго-де-Чили и построили визуализацию результатов.

В соавторстве с Томасом Рамиресом

Исходная версия этого сообщения (на испанском языке) доступна здесь.

Начиная с недели 19 октября, Чили погрузилась в так называемый «социальный взрыв». Миллионы людей по всей стране протестовали, требуя структурных реформ в отношении работы чилийского общества.

Цель этой публикации не в том, чтобы углубиться в обсуждение происходящего (для этого есть много других источников), а в том, чтобы внести небольшой вклад в понимание причин этого конфликта с использованием современных технологий. .

В исследовании, которое мы проводим в Лаборатории искусственного интеллекта PUC (IALAB PUC) для проекта Объяснимый искусственный интеллект Millenium Institute Fundational Research on Data, вместе с Отделом транспорта и логистики UC Engineering мы изучали моделирование восприятия города (мы объясним, что это немного дальше) с помощью глубокого обучения .

Это дает нам возможность анализировать информацию из тысяч изображений намного эффективнее, чем это мог бы сделать человек, что позволяет нам делать выводы, которые невозможно получить вручную. Мы использовали этот инструмент для анализа восприятия изображений. ~ 120 000 изображений Сантьяго.

Набор данных.

Проблема восприятия города заключается в автоматической оценке ощущений, создаваемых визуально ландшафтом, на основе определенного атрибута (например, безопасность). Place Pulse (Дубей и др., 2016) - это набор данных из краудсорсинга, содержащий примерно 1,2 миллиона ответов пользователей, каждый из которых состоит из пары изображений google street view, атрибут и созданная пользователем метка, содержащая информацию о том, на каком из изображений пользователь воспринимает атрибут более интенсивно.

Благодаря импульсному расположению проблему восприятия можно рассматривать как проблему парного ранжирования, и мы можем использовать методы из этой области для обучения глубокой сети, которая учится ранжировать изображения в соответствии с восприятием атрибутов.

Архитектура и обучение.

Так как это первый этап нашего исследования, мы сделали архитектуру, аналогичную той, что была представлена ​​Dubey, et al, но мы отказались от секции классификатора сети, поскольку нас интересует только ранжирование и, согласно нашим экспериментам, Так обучение проходило быстрее и стабильнее.

Результирующая архитектура очень проста и состоит из предварительно обученной Conv Net ImageNet (мы экспериментируем с AlexNet, VGG, DenseNet и ResNet), которая подается на 2 полностью связанных слоя с окончательным скалярным выходом. Для обучения мы загружаем два изображения в сеть и используем

Ключевой частью обучения является функция потерь, взятая из подхода задачи попарного ранжирования. Начнем с традиционной потери маржинального ранжирования, определяемой:

Где x₁ и x₂ - входные данные изображения, y - метка (-1,1), f представляет выход модели и m - постоянная величина для числовой стабильности. Важно отметить, что эта функция не обеспечивает ожидаемого результата, когда метка представляет собой связь (y = 0), и это происходит довольно часто в наборе данных, поэтому можно воспользоваться этим дополнительные данные, мы добавляем второй член потерь, который заставляет привязанные изображения ранжироваться аналогичным образом:

Мы добавляем эти две составляющие для окончательного проигрыша.

Мы обучаем по одной модели для каждого из шести атрибутов на месте импульса, мы используем SGD и дополняем данные случайными переворотами и кадрированием. После обучения мы используем модели для анализа изображений Сантьяго. Важно отметить, что эти изображения не использовались для обучения.

Визуализация и анализ результатов.

Чтобы оценить результаты, мы построили их визуализацию на карте Сантьяго (посмотрите здесь!). Если вы знаете город, достаточно немного взглянуть на карту с любым из 6 атрибутов, чтобы качественно зафиксировать, что результаты имеют большой смысл.

Если вы не смогли увидеть результаты на интерактивной карте, вы можете увидеть общий обзор на изображении ниже.

Те, кто знаком с Сантьяго, смогут наблюдать корреляцию между районами с более высоким доходом на душу населения - к северо-востоку от города - с восприятием качественных характеристик города, которые считаются положительными.

Сантьяго ведет себя аналогично многим латиноамериканским городам, где определенный сектор с высоким доходом простирается в форме конуса от исторического центра города к внешней части города. Нейронные сети показывают, что сегрегированное развитие Сантьяго не только спровоцировало изменение товаров, услуг и социально-экономических показателей, но также унесло с собой красоту, восприятие безопасности, радости и оживленности городских пространств.

Углубляйтесь в объяснимость результатов

Сегодня объяснение того, почему модель нейронной сети реагирует именно так, - это нерешенная исследовательская проблема, которая очень актуальна в этой области. В рамках этого проекта очень важно понять, что определяет внешний вид изображения, например, «более удручающе».

Чтобы дополнить предсказательную способность модели, были использованы эконометрические методы, которые, насколько это возможно, сделали процесс принятия решений нейронной сетью более интерпретируемым. С этой целью были использованы две другие сети для извлечения понятных человеку деталей изображения. Мы использовали инструмент Обнаружение объектов Tensorflow и модель семантической сегментации SegNet.

Затем эконометрическая модель оценивалась с переменной для каждого критерия, таким образом получая информацию о влиянии, например, наличия деревьев на восприятие безопасности.

Результаты в таблице показывают для каждого столбца, как указанный параметр влияет на восприятие (статистическая значимость в скобках). Например, во второй строке первое значение указывает, что переменная Building оказывает отрицательное влияние на красоту, что выражается в -0,0983. Результаты в этой таблице не имеют ощутимых единиц измерения, поэтому невозможно дать абсолютное значение, но что интересно, это позволяет нам сравнивать значения с другими переменными. Из этого исследования мы можем выделить некоторые интересные результаты, например, что присутствие велосипедистов и пешеходов в среднем положительно влияет на восприятие безопасности и активности. Они даже позволяют нам сравнивать масштабы влияния каждой переменной, например, насколько присутствие растительности и велосипедистов наиболее важно для определения красоты места.

Чем мы занимаемся сейчас

Наша исследовательская группа воспроизвела эксперимент Дуби и др., Чтобы включить новые переменные, которые позволят нам связать восприятие с характеристиками пользователя. Наш проект называется Wekun, слово из языка мапудунгун, что означает снаружи. В нем мы спрашиваем, какое место кажется лучшим для прогулок, какое место лучше всего для жизни, и мы сохраняем вопросы о безопасности, красоте и богатстве. Кроме того, мы добавили новый раздел, в котором мы запрашиваем социально-демографическую информацию о том, кто отвечает. Благодаря этому нам удалось обнаружить различия в восприятии между мужчинами и женщинами, а также между пешеходами и велосипедистами в отличие от водителей.

На рисунке красным цветом показаны места с большим снижением восприятия проходимости у женщин. Красным цветом выделен центр города и основные оси автомобильной мобильности.

Это исследование является частью работы, проводимой Департаментом транспорта и логистики PUC Engineering и Лабораторией искусственного интеллекта PUC (IALAB PUC), которая является частью Основополагающего исследования данных Millenium Institute .

Мы хотели бы поблагодарить всех, кто исторически работал над этим исследованием, особенно Томаса Россетти, Ханса Лобельса, Виктора Рокко и Рикардо Хуртубиа, авторов исследования, которые заложили основы, которые сделали эту публикацию возможной.