Помните, когда вы искали рубашку в Интернете на Myntra или Ajio, в описании которой говорилось, что у нее есть карман, но на картинках его явно не было; Или время, когда вы заказали кошелек или портмоне, прочитав, что в нем есть карман для монет, но только после получения поняли, что его нет.

Причин неточности данных может быть множество. Тем не менее, это, безусловно, не дает вам в целом хорошего опыта покупок и не дает уверенности в том, что в ближайшее время можно заказать что-либо онлайн, верно? Это может не иметь большого значения в контексте одежды или аксессуаров, но когда вы покупаете автомобиль в первый раз в Интернете, на карту поставлены все. Итак, давайте рассмотрим одно из немногих возможных несоответствий в данных и то, как мы гарантируем, что они не испортят вам опыт онлайн-покупки автомобиля!

Автоматическая и механическая коробка передач

Покупатели автомобилей обращают внимание на определенные функции при покупке автомобиля, и одной из самых важных характеристик является трансмиссия. Если вы из мегаполиса и ездите в основном в городском потоке, вы бы больше склонялись к АКПП. В то время как если вы больше ездите по шоссе или хотите полностью контролировать свой автомобиль, вы бы выбрали механическую коробку передач. Таким образом, подобные функции имеют большое значение, и любое несоответствие данных об этих функциях станет большим разочарованием для любого клиента. Мы обучили алгоритм машинного обучения, чтобы выявлять эту неточность данных.

Если вы когда-либо посещали наш веб-сайт, у нас есть страница сведений об автомобиле с изображениями, такими же, как и любая другая страница сведений о продукте на Amazon или Flipkart. На одном из изображений интерьера мы включаем изображение рычага переключения передач. Используя это изображение, наша модель машинного обучения определит тип трансмиссии автомобиля и пометит любое несоответствие данных. Ключевым моментом здесь является то, что на автомобиле с механической коробкой передач всегда выгравированы схемы передач на ручке переключения передач. Для сравнения, у автомобиля с автоматической коробкой передач на ручке переключения передач ничего не выгравировано, кроме шаблонов P-R-N-D, отмеченных у основания рычага переключения передач.

Вам может быть интересно, как модель машинного обучения идентифицирует коробку передач по изображению рычага переключения передач. На самом деле это не одна модель, а цепочка из двух моделей машинного обучения, которые работают последовательно:

  • Первая модель – это модель обнаружения объектов, предназначенная для идентификации и локализации области ручки переключения передач на изображении.
  • Вторая модель представляет собой классификацию изображений модель, позволяющую классифицировать локализованную область ручки переключения передач как механическую или автоматическую коробку передач.

Вы можете спросить, нельзя ли обойтись одной моделью классификации изображений?

Ответ может быть не однозначным. Причина в том, что на изображении рычага переключения передач у нас есть рычаг переключения передач, его основание и ручка переключения передач, которые полезны для этой цели. Но у нас также есть много другой визуальной информации, такой как часть приборной панели, вентиляционные отверстия кондиционера, часть информационно-развлекательной системы, сиденья, подстаканники и многое другое на изображении. Все это слишком много информации для модели классификации изображений. Поскольку у нас нет контроля над тем, что изучают более глубокие уровни сетей CNN, это действует как шум и может не позволить сети понять разницу между ручным и автоматическим.

Чтобы избежать этого, мы поместили модель обнаружения объектов так, чтобы она сначала локализовалась в области ручки переключения передач. Это помогло уменьшить нагрузку на модель классификации изображений и помогло достичь более высокой общей точности.

Обнаружение ручки переключения передач

Локализация области ручки переключения передач на изображении рычага переключения передач достигается с помощью алгоритма Faster R-CNN компании Detectron2. Detectron2 — это платформа нового поколения Facebook AI Research, которая предоставляет самые современные алгоритмы обнаружения и сегментации. Для получения дополнительной информации о возможностях Detectron2, помимо обнаружения объектов и алгоритма Faster R-CNN, посетите Страницу Detectron2 Github.

Модель обнаружения объектов Detectron2 состоит из трех основных этапов обнаружения объектов. На первом этапе из входного изображения извлекаются карты признаков, на втором этапе предлагаются объекты из областей с несколькими масштабами, а на третьем этапе получаются точно настроенные местоположения блоков и результаты классификации. Наконец, у вас будет не более 100 ящиков с обнаруженными и классифицированными объектами. Все действия этих трех этапов происходят в трех блоках, а именно: магистральная сеть, региональная сеть предложений и главы ROI соответственно. Вы можете найти эти три блока в метаархитектуре Detectron2 с сетью Base-R-CNN-FPN ниже.

Как обсуждалось выше, Магистральная сеть извлекает признаки из входного изображения и извлекает признаки в различных масштабах. Выходные элементы Base R-CNN-FPN имеют масштабы 1/4, 1/8, 1/16, 1/32 и 1/64 масштаба входного изображения и называются P2, P3, P4, P5 и P6 соответственно. Это делается с помощью сети ResNet50. Затем сеть предложений по регионам определяет регионы объектов по многомасштабным функциям и получает 1000 предложений блоков (по умолчанию) с оценками достоверности. И, наконец, Box Head обрезает и деформирует карты объектов с использованием блоков предложений в несколько объектов фиксированного размера и получает точно настроенные местоположения блоков и результаты классификации с помощью полностью связанных слоев. Наконец, фильтруется максимум 100 ящиков (по умолчанию). Вы можете более подробно рассмотреть компоненты этих трех блоков сети Dettron2 Base-RCNN-FPN ниже:

Если вы хотите более подробно узнать о каждом компоненте, я настоятельно рекомендую вам просмотреть серию блогов Хирото Хонды из пяти частей об архитектуре Detectron2 здесь.

Возвращаясь к нашему обнаружению ручки переключения передач, мы использовали модель Base Faster R-CNN, поскольку ручку переключения передач легко идентифицировать. Мы тренировались с 500 повторениями разминки и около 10000 общих тренировочных итераций.

Помимо всех технических особенностей модели обнаружения объектов, суть в том, что если вы дадите изображение этой модели обнаружения объектов, она вернет обрезанное изображение с присутствующей в нем рукояткой переключения передач. Точность этой модели обнаружения объектов составляет около 99%, что почти идеально; еще интереснее узнать, что это было достигнуто при довольно небольшом количестве обучающих данных.

Классификация ручки переключения передач

Получив локализованные области ручки переключения передач из модели обнаружения объектов, мы обучили модель классификации двоичных изображений, чтобы определить, является ли ручка переключения передач ручной или автоматической. Обратите внимание, что модель обнаружения объектов из предыдущего шага показала себя очень хорошо с меньшим количеством данных. Благодаря этой тяжелой работе, проделанной моделью обнаружения объектов, задача модели классификации изображений стала проще. Нам может сойти с рук использование упрощенной модели для классификации ручек переключения передач. Итак, мы пошли дальше с MobileNetV2 с предварительно обученными весами для этой цели.

В MobileNetV2 есть два типа блоков. Один — остаточный блок с шагом 1. Другой — блок с шагом 2 для уменьшения размера. Оба типа блоков имеют три слоя. Первый слой — это свертка 1×1 с ReLU6. Второй слой — свертка по глубине. Третий слой — это еще одна свертка 1 × 1, но без какой-либо нелинейности. Утверждается, что если ReLU будет использоваться снова, глубокие сети будут иметь мощность линейного классификатора только в части ненулевого объема выходной области.

Обрезанные участки ручки переключения передач передаются в классификационную модель MobileNetV2, которая возвращает передачу автомобиля. Затем эта прогнозируемая передача сравнивается с передачей со страницы сведений об автомобиле, чтобы увидеть, есть ли какие-либо расхождения в данных. Таким образом, мы можем легко идентифицировать передачу автомобиля по изображению с помощью двухэтапного конвейерного подхода машинного обучения.

Конвейер машинного обучения тестируется на невидимых данных, и результаты сравнительного анализа следующие: точность — 98 %, точность — 98 %, полнота — 97 %.

Заключение

Вы могли столкнуться с моделями машинного обучения, когда просматривали рекомендации Netflix, автозаполняли поисковые фразы Google, взаимодействовали с виртуальными помощниками, проверяли «Люди, которых вы можете знать» на Facebook и получать сообщения о предполагаемых мошеннических онлайн-транзакциях. Все эти модели делают нашу жизнь проще, чем раньше. Точно так же мы делаем вашу жизнь проще, используя модели машинного обучения по-своему. Не только традиционными способами, но и при использовании по-новому, модели машинного обучения упрощают жизнь каждого, помогая нам заранее выявлять расхождения в данных и предлагая вам беспрепятственный процесс онлайн-покупки автомобиля.

Рекомендации

  1. Detectron2: https://github.com/facebookresearch/Detectron2
  2. Medium.com: https://medium.com/@hirotoschwert/digging-into-detectron-2-47b2e794fabd