Google предоставляет разработчикам некоторые из своих внутренних проектов в виде облачных API. Отдав TensorFlow, службу машинного обучения, Google теперь открывает доступ к механизму распознавания изображений через Cloud Vison API.

Google Photos — это один из продуктов, который в значительной степени зависит от алгоритма классификации изображений и сопоставления с образцом. Это технология, которая позволяет потребителям искать фотографии, содержащие определенный объект или достопримечательность. С помощью API Cloud Vision разработчики могут включать в свои приложения такие же сложные функции распознавания изображений.

Представленный как REST API, Google Cloud Vision API принимает изображение и классифицирует его по тысячам категорий. Он может обнаруживать лица с эмоциями, а также распознавать печатные слова многих языков. Разработчики могут создавать обширные метаданные вокруг изображений, которые можно использовать для выполнения настраиваемого поиска. API можно использовать для анализа настроений изображений, модерации оскорбительного контента и сопоставления изображений с образцом.

По данным Google, с Cloud Vision API возможны следующие сценарии:

  • Обнаружение метки/объекта выбирает доминирующий объект (например, автомобиль, кошку) на изображении из широкого набора категорий объектов. Вы можете использовать API, чтобы легко создавать метаданные в вашем каталоге изображений, позволяя использовать новые сценарии, такие как поиск или рекомендации на основе изображений.
  • Оптическое распознавание символов для извлечения текста из изображения. Cloud Vision API обеспечивает автоматическую идентификацию языка и поддерживает широкий спектр языков.
  • Обнаружение безопасного поиска для обнаружения неприемлемого содержания на вашем изображении. Эта функция, основанная на Google SafeSearch, позволяет легко модерировать краудсорсинговый контент.
  • Распознавание лиц может обнаруживать появление лица на фотографиях, а также связанные с ним черты лица, такие как расположение глаз, носа и рта, а также более восьми атрибутов, таких как радость и печаль. Мы не поддерживаем распознавание лиц и не храним информацию об обнаружении лиц на серверах Google.
  • Обнаружение ориентира для выявления популярных природных и искусственных сооружений, а также соответствующей широты и долготы ориентира.
  • Распознавание логотипов для идентификации логотипов продуктов на изображении. Cloud Vision API возвращает идентифицированный логотип бренда продукта с соответствующим ограничивающим полибоксом.

Читать всю статью в Forbes.

Janakiram MSV — аналитик, консультант и архитектор. Подпишитесь на него в Twitter, Facebook и LinkedIn.