API Google Cloud Vision предоставляет разработчикам сложную службу распознавания изображений

Google предоставляет разработчикам некоторые из своих внутренних проектов в виде облачных API. Отдав TensorFlow, службу машинного обучения, Google теперь открывает доступ к механизму распознавания изображений через Cloud Vison API.

Google Photos — это один из продуктов, который в значительной степени зависит от алгоритма классификации изображений и сопоставления с образцом. Это технология, которая позволяет потребителям искать фотографии, содержащие определенный объект или достопримечательность. С помощью API Cloud Vision разработчики могут включать в свои приложения такие же сложные функции распознавания изображений.

Представленный как REST API, Google Cloud Vision API принимает изображение и классифицирует его по тысячам категорий. Он может обнаруживать лица с эмоциями, а также распознавать печатные слова многих языков. Разработчики могут создавать обширные метаданные вокруг изображений, которые можно использовать для выполнения настраиваемого поиска. API можно использовать для анализа настроений изображений, модерации оскорбительного контента и сопоставления изображений с образцом.

По данным Google, с Cloud Vision API возможны следующие сценарии:

Обнаружение метки/объекта выбирает доминирующий объект (например, автомобиль, кошку) на изображении из широкого набора категорий объектов. Вы можете использовать API, чтобы легко создавать метаданные в вашем каталоге изображений, позволяя использовать новые сценарии, такие как поиск или рекомендации на основе изображений.
Оптическое распознавание символов для извлечения текста из изображения. Cloud Vision API обеспечивает автоматическую идентификацию языка и поддерживает широкий спектр языков.
Обнаружение безопасного поиска для обнаружения неприемлемого содержания на вашем изображении. Эта функция, основанная на Google SafeSearch, позволяет легко модерировать краудсорсинговый контент.
Распознавание лиц может обнаруживать появление лица на фотографиях, а также связанные с ним черты лица, такие как расположение глаз, носа и рта, а также более восьми атрибутов, таких как радость и печаль. Мы не поддерживаем распознавание лиц и не храним информацию об обнаружении лиц на серверах Google.
Обнаружение ориентира для выявления популярных природных и искусственных сооружений, а также соответствующей широты и долготы ориентира.
Распознавание логотипов для идентификации логотипов продуктов на изображении. Cloud Vision API возвращает идентифицированный логотип бренда продукта с соответствующим ограничивающим полибоксом.

Читать всю статью в Forbes.

Janakiram MSV — аналитик, консультант и архитектор. Подпишитесь на него в Twitter, Facebook и LinkedIn.

API Google Cloud Vision предоставляет разработчикам сложную службу распознавания изображений

Вопросы по теме