Выбор визуального классификатора: взгляд на дизайн

Когда дело доходит до применения ИИ в дизайне, одной из наиболее очевидных технологий являются визуальные классификаторы. Визуальные классификаторы - это алгоритмы, которые могут извлекать информацию из изображений, включая такие вещи, как автоматическая модерация изображений, распознавание текста и распознавание лиц. В VSA мы применяем эти инструменты в своей работе по дизайну во всем: от извлечения цветовых тенденций из большого пакета изображений до классификации фотографий, принадлежащих бренду или других. В наших исследованиях мы опробовали все ведущие API визуальных классификаторов - IBM Watson Visual Recognition, Google Vision, Microsoft Azure Computer Vision, Amazon Rekognition и независимый проигрыватель Clarifai - и обнаружили, что некоторые из них определенно лучше для дизайнерских приложений, чем другие. Вот наши выводы и рекомендации.

Рекомендация:

Если вы планируете использовать службу визуального распознавания для любого дизайнерского приложения, начните с Google или Clarifai: они близки по рейтингу, и обе они превосходят другие службы с точки зрения функциональности и возможностей. У Google самый широкий набор функций, включая такие вещи, как Crop Hinting, связанные изображения из Интернета и надежную поддержку извлечения цвета (включая значения RGB). Clarifai также обладает мощным набором функций и предлагает широчайший диапазон уже существующих моделей, таких как распознавание визуальных паттернов. Кроме того, это самый простой (и дешевый) способ обучения пользовательских моделей для создания собственных проектных решений.

Наш процесс:

Мы оценили каждую услугу по семи категориям от 1 (самый низкий) до 5 (самый высокий), а затем суммировали эти баллы, чтобы получить общую оценку для каждой услуги:

Извлечение концептов: возможность идентифицировать элементы изображения и создавать список концептуальных ярлыков. Сервисы получили более высокие оценки за поддержку нескольких концептуальных моделей.

Идентификация лица: возможность идентифицировать лица на изображении, местонахождение этих лиц и любую эмоциональную или демографическую информацию, передаваемую этими лицами.

Цвет: возможность извлекать данные о цвете из изображения.

Текст: возможность читать и извлекать текст из изображения.

Модерация и авторские права: возможность распознавать изображения, неприемлемые для публикации из-за содержания или нарушения логотипа / товарного знака.

Обучаемость: можно ли обучить систему созданию пользовательских моделей с настраиваемым поведением распознавания изображений.

Документация: наличие надлежащей документации по функциям и ее актуальность и точность.

Google Vision

Сервис Google Vision является частью их более крупной облачной платформы Google. Он не только предоставляет функциональные возможности визуального классификатора, но и объединяет его с огромной поисковой базой данных и возможностями Google, предоставляя их сервисные функции, которые другие системы не могут предоставить. Самая большая слабость Google Vision - отсутствие поддержки пользовательских моделей.

Общая оценка: 29

Извлечение концептов: 4
Google обеспечивает надежное извлечение и идентификацию концепций. Уникальное отличие состоит в том, что Google использует свою базу данных поиска, чтобы также связывать изображения со связанными изображениями в открытой сети.

Идентификация лица: 5
Google может обнаруживать лица и предоставлять демографическую информацию (возраст, пол), а также настроения, и это единственная система, которая выделяет элементы лица (глаза, нос и т. д.). Однако он не распознает эти лица, если они известные люди. Если они достаточно известны, чтобы считаться главной темой в сети, их имя появится среди множества концепций, но тот факт, что это узнаваемое лицо, четко не отмечен в данных.

Цвет: 4
Google предоставляет чрезвычайно надежный набор данных о цвете, включая шестнадцатеричные значения, значения RGB и процентное соотношение цвета. Это кажется простым, но, как ни странно, только пара поставщиков на самом деле предоставляет информацию в шестнадцатеричном формате или RGB, которая с точки зрения дизайна и разработки является единственным ценным способом передачи данных о цвете.

Текст: 5
API Google лучше всего выделяет текст. Он обеспечивает не только извлечение текста, но и предоставляет подробные данные о том, где на изображении (x, y и ограничивающая область) появляется текст.

Модерация и авторское право: 5
Google использует интеллектуальные возможности своей безопасной модерации поиска, чтобы предоставить возможности модерации для своего API, поэтому он, безусловно, лучший на рынке. Система также очень эффективна при идентификации потенциальных логотипов, хотя у нее нет конкретной модели для логотипа, поэтому, если вам нужна явная идентификация логотипа / товарного знака, лучше выбрать другой API.

Обучаемость: 1
Google не предоставляет пользовательские модели или возможность обучать систему на основе пользовательских данных.

Документация: 5
Их API предельно ясны, и они предоставляют актуальные образцы кода и демонстрации.

Clarifai

Clarifai - независимый поставщик визуальных классификаторов, и поэтому единственное внимание их бизнеса уделяется функциям для своих услуг, и, следовательно, они имеют наиболее зрелую систему. Их поддержка пользовательских моделей является лучшей и простой в реализации. Самая большая слабость в том, что они не обеспечивают извлечения текста.

Общий балл: 30

Извлечение концептов: 5
Clarifai - лидер в извлечении концепций. У них больше всего моделей (18), которые обеспечивают детальное определение понятий. Кроме того, их модели обучаются на нескольких языках, поэтому омографы на одном языке правильно отображаются на концепции на других языках. Например, «слеза» на английском языке - это может быть слеза на глазу или слеза на одежде - распознается как две совершенно разные вещи, поэтому на французском она правильно переводится как «larme» и «déchirer». Многие другие системы не так умны в своей таксономии и тегах.

Распознавание лиц. 4
У Clarifai есть надежная модель распознавания лиц. Он распознает лица на изображении, определяет их местонахождение и предоставляет подробную демографическую информацию. Сила Clarifai в том, что у них есть особая модель обнаружения знаменитостей.

Color: 5
Clarifai - единственный другой API, который предоставляет фактические данные о цвете в шестнадцатеричном и процентном значениях. Они не поддерживают RGB, как Google, но создать собственный конвертер несложно.

Текст: 1
Извлечение текста - слабое место Clarifai. В настоящее время они не поддерживают это, но работают над этим.

Модерация и авторские права: 5
Clarifai обладает мощными возможностями модерации с индивидуальной моделью модерации контента и другой моделью для обнаружения контента NSFW. Также существует модель логотипа для обнаружения любых логотипов товарных знаков на изображении.

Обучаемость: 5
Clarifai обеспечивает поддержку пользовательских моделей. Единственным поставщиком, который предлагает такую ​​возможность, является IBM Watson. Его интерфейс для обучения чрезвычайно прост, с простым веб-интерфейсом для загрузки и добавления изображений к изображениям, можно создать собственную модель без разработки. Кроме того, цена нестандартной модели чрезвычайно низка по сравнению с IBM.

Документация: 5
Документация их API предельно ясна, и они предоставляют актуальные образцы кода на нескольких языках. Их панель управления также проста в использовании и хорошо документирована.

IBM Watson Visual Recognition

IBM Visual Recognition изначально была Алхимией, и в процессе перехода под эгидой Watson она, похоже, утратила некоторые возможности, что сделало ее довольно ограниченным инструментом. Единственное, что поддерживает IBM, чего нет ни у одного другого поставщика, кроме Clarifai, - это поддержка индивидуальных моделей, однако цены непомерно высоки. Совершенно очевидно, что IBM сосредоточена на использовании Watson для организации неструктурированных данных, включая изображения, поэтому инструменты визуального классификатора ориентированы на теги и таксономию, а не на извлечение данных для использования в других приложениях.

Общий балл: 18

Извлечение концептов: 3
Watson эффективен при извлечении концептов, но у него есть две модели - общая и одна для пищевых продуктов. Одна приятная особенность, уникальная для IBM, - это иерархия типов, у нее есть таксономия, которая упорядочивает все ее теги, поэтому легко использовать извлечение концепций для маркировки и организации изображений.

Идентификация лиц: 4
Служба IBM сильна в распознавании лиц, она способна идентифицировать лица, выделять область, предоставлять демографическую информацию и даже идентифицировать знаменитостей.

Цвет: 2
Watson определяет цвета в изображении, но предоставляет только именованный цвет (например, пурпурно-синий), а не данные для анализа (например, # 663399). Следовательно, это действительно полезно только для тегов таксономии, а не для дизайнерских приложений.

Текст: 1
Текст не поддерживается.

Модерация и авторские права: 1
Модерация не поддерживается.

Обучаемость: 3
IBM действительно поддерживает пользовательские модели, однако процесс их обучения далеко не так прост, как Clarifai, а стоимость размещения модели затрудняет создание прототипа.

Документация: 4
Документация разбросана между Watson Visual Recognition API и Bluemix, их решением IaaS / PaaS, что затрудняет навигацию. В целом, он хорошо продуман и тщательно продуман, хотя время от времени мы обнаруживали неработающие ссылки.

Amazon Rekognition

Rekognition - одна из ста с лишним сервисов, доступных через Amazon Web Services (AWS). Это базовая утилита, которая соответствует вашим потребностям, если вы хотите выполнить извлечение концепций, но отсутствие дополнительных функций и возможностей делает ее менее привлекательным инструментом для приложений проектирования.

Общий балл: 17

Извлечение концепций: 3
В Rekognition есть 5 моделей для извлечения концепций, и, следовательно, он имеет больший контроль, чем другие игроки, но ему не хватает глубины возможностей, поддерживаемых Google или Clarifai.

Идентификация лиц: 4
Amazon идентифицирует лица, предоставляет демографическую информацию и даже имеет уникальную функцию, позволяющую сравнивать лица.

Цвет: 1
Цвет не поддерживается.

Текст: 1
Текст не поддерживается.

Модерация и авторские права: 3
Модерация изображений поддерживается, но не так сильна, как у Google Vision. Хотя нет специальной поддержки для распознавания логотипов, в него вставляются понятия «Логотип» и «Товарный знак», если вы загружаете общие логотипы.

Обучаемость: 1
Нет поддержки пользовательских моделей.

Документация: 4
Документация хороша, но, как и большинство AWS, немного неорганизована и подавляющая с точки зрения UX.

Microsoft Computer Vision API

Кажется, что API компьютерного зрения от Microsoft - это предложение, которое они предоставляют для дополнения своего набора сервисов искусственного интеллекта, но не в фокусе. Одной из сильных сторон является его способность извлекать текст из изображений - похоже, у него есть одна из сильных моделей для обеспечения этой функциональности.

Общий балл: 16

Извлечение концепций: 2
Microsoft предлагает только одну обобщенную модель, поэтому извлечение концепций не требует нюансов.

Идентификация лица: 4
Обеспечивает базовое распознавание лиц с демографическими данными и местоположением, но не идентифицирует знаменитостей или другие особенности, кроме базовых.

Цвет: 2
Извлекает несколько ключевых цветов, но его чрезмерно упрощенная модель цвета подходит для ограниченного использования.

Текст: 4
Обозначает текст на изображениях и предоставляет информацию о местоположении и границах текста. Мы обнаружили, что иногда он пропускал очень очевидный текст, особенно когда это были отдельные буквы на изображении.

Модерация и авторские права: 1
Нет поддержки модерации или обнаружения товарных знаков.

Обучаемость: 1
Нет поддержки пользовательских моделей.

Документация: 4
Документация эффективна, но не так хорошо разработана с точки зрения UX, как другие поставщики.