Исследование глубокого обучения — Фаза 1 — Распознавание изображений

В мире технологий было так много разговоров об искусственном интеллекте, глубоком обучении, распознавании изображений, виртуальной и дополненной реальности, машинном обучении и т. д. и т. д. Достаточно взглянуть на Google Trends (см. диаграмму ниже), чтобы понять, насколько выросло это пространство. Теперь это определенно просочилось в сектор культуры — недавние примеры включают опыт Модильяни Тейт в виртуальной реальности, приложение Smartify для распознавания изображений, проект Тейт Распознавание, увлечение Google Arts and Culture Selfie и приобретение Thread Genius на этой неделе. Сотбис.

Нажмите здесь, чтобы посмотреть нашу модель птичьего самолета!

За исключением опыта Тейт с виртуальной реальностью, все вышеперечисленное основано на технологии, известной как глубокое обучение, подмножество области компьютерных наук, называемой машинным обучением. Идея состоит в том, что мы даем компьютерной программе множество примеров данных, о которых мы хотим что-то узнать, а затем программа может делать выводы об этих данных. В частности, глубокое обучение оказалось чрезвычайно эффективным при обработке неструктурированных наборов данных, таких как текст, пиксельные данные из изображений и аудио.

Теперь эта технология позволяет создателям моделей/платформ/приложений задавать вопросы: «Какие пары ввода-вывода меня интересуют?» и найти корреляции и связи между ними, что раньше было бы гораздо сложнее. Давайте посмотрим на недавнее увлечение Google функцией селфи «Искусство и культура» — Google начал с пар ввода-вывода картин (входные данные) и деталей этой картины (выходных данных), таких как имя, художник, дата написания и т. д. Они обучили модель, используя тысячи и тысячи изображений картин, чтобы найти корреляции между данными изображения, например цвета, тени, стиль рисования и т. д., а также детали конкретной картины. Затем Google попросил людей внести свой вклад в ту же модель, попросив их прислать селфи. Затем модель «предсказывала» детали селфи и отображала изображение картины, на которую это селфи было больше всего похоже. Интересный…

Поскольку есть несколько отличных фреймворков глубокого обучения, таких как Tensorflow и Keras, которые позволяют вам довольно быстро что-то запустить и запустить, мы подумали, что стоит попробовать! Мы начали проект, надеясь определить, является ли входное изображение птицей или самолетом, вдохновленным книгой Дэвида Ньюмана и Роберта Бентона, основанной на комиксе о Супермене. Техническое обсуждение выходит за рамки этого поста, но для тех, кто заинтересован, мы использовали Keras (работающий с Tensorflow) для обучения подключенной модели поверх модели VGG16 (предварительно обученной в базе данных ImageNet). Модель обучалась на 2000 изображений каждого класса (птиц и самолетов), взятых из Flickr API. Затем мы собрали очень (очень!) грубое приложение Flask на Heroku, чтобы поделиться им! Github для кода можно найти здесь.

Результаты довольно замечательны, модель достигла точности 95% в наборе данных проверки. Учитывая небольшое количество обучающих изображений, мы были весьма впечатлены тем, насколько быстро и относительно легко можно было собрать простой классификатор изображений. Очевидно, что это не особенно полезно, но демонстрирует мощь технологии.

Возвращаясь к сектору культуры, как мы видели, уже было несколько замечательных применений глубокого обучения. Впечатления посетителей улучшились, и искусство стало более доступным, чем когда-либо, но это только начало. Изображения и текстовые данные не являются дефицитом в этом секторе, что делает его главной целью для инноваций в этой сфере. Какие инструменты мы можем создать, чтобы помочь культурным учреждениям предоставить своим посетителям наилучшие впечатления? Эти модели позволяют нам проводить явные связи между вещами, которые раньше были невозможны или требовали многолетнего практического опыта; подборка работ и личного вкуса, картина и имя художника и даже селфи и шедевры!

Акцент сместился с поиска правильного ответа на конкретный вопрос, например. «Как зовут автора этой картины?». Теперь мы можем сосредоточиться на том, чтобы задать правильный вопрос, и мы ограничены только нашей способностью найти достаточное количество примеров из реального мира (например, пары живописи и художника).

Мы будем рады услышать ваши мысли — пожалуйста, свяжитесь здесь!

Исследование глубокого обучения — Фаза 1 — Распознавание изображений

Вопросы по теме