На прошлой неделе я прочитал статью об Open Image, проекте Google Research, который решил бесплатно опубликовать интересный набор данных изображений, используемых для обучения модели визуального распознавания. Также предоставляется предварительно обученная модель, и все подробности можно найти по следующей ссылке https://research.googleblog.com/2016/09/introduction-open-images-dataset.html.

Поскольку я привык играть с использованием API IBM Watson, я хотел просто сравнить результаты обоих API, используя несколько изображений, используемых для целей тестирования.

Чтобы протестировать модель Google, я сначала установил Tensorflow, который, как вы, наверное, знаете, представляет собой комплексную библиотеку программного обеспечения с открытым исходным кодом для машинного обучения. Поскольку я использую Anaconda, я установил тензорный поток в качестве среды Anaconda для тех, кто хотел бы поиграть с тензорным потоком и открыть изображение, следуя документации в репозитории Git https://github.com/openimages/dataset.

Для получения результатов я использовал для API Google скрипты python, предоставленные для tenorflow, в то время как я использовал демонстрационное приложение IBM Visual Recognition API, доступное здесь https://visual-recognition-demo.mybluemix.net/

Давайте сравним результат:

Тест №1 - Изображение собаки

В качестве первого прогона я попытался провести простой тест по поиску изображения собаки, обе модели угадали довольно хорошо.

Результаты открытия изображений Google Tensorflow

Результаты IBM Watson Visual Recognition API

Watson API определенно дает немного больше информации, а также пытается угадать породу собаки. Другая промежуточная информация касается цвета интересующего объекта.

Тест №2 - Малыш и трехколесный велосипед

Результаты этого теста достаточно успешны для обеих моделей.

Результаты открытия изображений Google Tensorflow

Результаты IBM Watson Visual Recognition API

Что видно в результатах IBM API, так это то, что он обнаружил другую сущность «человека» и пытается классифицировать различные функции только для этой сущности, такие как возраст и пол, а также есть более глубокие сведения о транспортном средстве.

Тест №3- Офис

Последний тест, который я выбрал более сложный, и изображение, которое не имеет особого фокуса и содержит большее количество объектов, видно из результатов, что обе модели изо всех сил пытаются выяснить, на чем сосредоточен главный фокус.

Результаты открытия изображений Google Tensorflow

Результаты IBM Watson Visual Recognition API

Заворачивать

Оба API действительно впечатлили меня, IBM Watson API для визуального распознавания показал более точные результаты в проведенном мною тесте, а также предоставляет больше функциональных возможностей, таких как распознавание лиц и определение цветов.

Проект Open Image предлагает ресурсы с открытым исходным кодом, и это также примечательная особенность, которую может улучшить сообщество ученых и разработчиков данных по всему миру.

Большой потенциал этих технологий заключается в возможности создавать модели, обученные на определенных наборах данных изображений, собранных для достижения определенной цели. Только представьте, и у вас в голове возникнет множество вариантов использования.