Разработка двухмодульного решения компьютерного зрения для обнаружения повреждений автомобиля

Компьютерное зрение, как область ИИ, приобретает все большее значение в страховой отрасли. Это может помочь автоматизировать процессы и сократить расходы, повышая точность и улучшая качество обслуживания клиентов.

Технология компьютерного зрения открывает множество возможностей, включая в определенной степени замену ручного контроля. Вот почему команда Intelliarts сочла многообещающим начать работу над проектом автоматизированной оценки повреждений автомобилей.

Рассмотрим подробно, как решать задачи обнаружения повреждений автомобиля с помощью компьютерного зрения на опыте команды инженеров машинного обучения Intelliarts, какие конкретно алгоритмы можно использовать, как происходит процесс обучения и оценки производительности модели и что популярный алгоритм может дать лучшие результаты в проекте компьютерного зрения.

Какие алгоритмы могут решить задачу обнаружения повреждений автомобиля

Для этого инженеры используют алгоритм сегментации изображения. Его работа заключается в том, чтобы приписать тому или иному пикселю изображения тот или иной класс на основе определенных визуальных характеристик, таких как цвет, текстура, интенсивность или форма. В случае осмотра транспортного средства класс либо с повреждениями, либо без повреждений. Целью сегментации изображения является упрощение или преобразование представления изображения в более осмысленную форму, отделение объектов от фона и упрощение их анализа.

Двумя основными подходами к сегментации изображений являются следующие:

Сегментация экземпляра

С помощью этой техники компьютерного зрения каждый отдельный объект идентифицируется и помечается уникальным идентификатором. Первым шагом сегментации экземпляра является обнаружение объекта. На этом этапе алгоритм компьютерного зрения пытается обнаружить все объекты на изображении и предоставить каждому из них ограничивающую рамку, то есть фигуру прямоугольной или квадратной формы, окружающую объект. Во время классификации, выполняемой по областям внутри ограничивающих рамок, алгоритм вычисляет достоверность или вероятность того, что конкретный интересующий объект с определенным классом, например, автомобилем, деревом, человеком и т. д., находится внутри ограничивающей рамки.

На втором этапе алгоритм выполняет сегментацию в каждой из ограничивающих рамок и помечает каждый пиксель, указывая, принадлежит он объекту или нет.

Еще одним требованием сегментации экземпляров является использование попиксельных масок. Это бинарные изображения, которые используются для определения местоположения объектов или областей интереса на изображении. Каждому пикселю в маске присваивается значение 0 или 1, указывающее, принадлежит ли этот пиксель интересующему объекту или области. Пиксельные маски можно создавать вручную, добавляя аннотации к изображениям.

То, как работает этот алгоритм, гарантирует, что несколько экземпляров одного и того же объекта будут отличаться друг от друга, даже если они перекрываются или частично перекрываются другими объектами на изображении.

Семантическая сегментация

Метод семантической сегментации включает в себя разделение изображения на несколько сегментов, каждый из которых соответствует определенному объекту или интересующей области на изображении, и их классификацию по отдельности. В отличие от традиционных методов сегментации изображения, которые просто разбивают изображение на произвольные области на основе схожести пикселей, семантическая сегментация направлена на то, чтобы связать каждый сегмент со значимой семантической меткой, такой как человек, автомобиль, здание, дерево и т. д.

Семантическая сегментация рассматривает несколько объектов, принадлежащих к одному классу, как единый объект. При необходимости он может указать границы, например, всех людей, всех автомобилей или всех зданий на изображении. Важно отметить, что семантическая сегментация позволяет обнаруживать только повреждения, не различая их. По сути, сегментация экземпляра может отличить несколько различных повреждений друг от друга.

После обучения модель семантической сегментации можно использовать для сегментации новых изображений путем распространения их по сети и создания маски сегментации на уровне пикселей. Последний работает аналогично попиксельным маскам при сегментации экземпляров, но присваивает метку каждому пикселю изображения вместо создания нескольких масок, по одной для каждого экземпляра объекта.

Фактическое сравнение реальных экземпляров и алгоритмов семантической сегментации с полученными данными представлено в следующих разделах.

Метрики машинного обучения для оценки производительности обученной модели

Метрики машинного обучения — это количественные показатели того, насколько хорошо модель решает поставленную задачу. Они помогают оценить производительность модели и дают представление о сильных и слабых сторонах модели.

Значения показателей машинного обучения рассчитываются на основе результатов, которые показывает модель после ее тестирования на ранее неиспользованном наборе данных. Таким образом, инженеры могут оценить потенциальную производительность модели на реальных данных. Полученные результаты служат ориентиром для дальнейшего принятия решений, поскольку инженерам может потребоваться несколько раз переработать модель, прежде чем ее производительность будет признана удовлетворительной.

Вот список основных метрик сегментации изображений, которые следует учитывать при тестировании модели для решения задач обнаружения повреждений:

1.MIoU (среднее пересечение по объединению)

Эта метрика измеряет среднее перекрытие между прогнозируемой и наземной масками сегментации истинности для каждого класса в наборе данных. MloU рассчитывается путем вычисления IoU для каждого класса, а затем берется среднее значение по всем классам. IoU = пересечение между предсказанными и наземными масками истинности для класса/объединением между предсказанными и наземными масками истинности для класса.

2.Точность пикселей

Эта метрика измеряет процент пикселей в изображении, которые правильно классифицируются моделью. Точность пикселей = количество правильно классифицированных пикселей / общее количество пикселей в изображении.

3.Коэффициент игры в кости

При сегментации изображения коэффициент кости измеряет перекрытие между пикселями прогнозируемой и истинной масок сегментации по шкале от 0 до 1, где 0 означает отсутствие перекрытия, а 1 означает идеальное совпадение. Коэффициент кости = 2 * количество пикселей, которые правильно классифицируются обеими масками / общее количество пикселей в обеих масках

В нашем исследовании производительности моделей сегментации экземпляров и моделей семантической сегментации, описанных ниже, команда Intelliarts использовала показатели MloU и Dice Coefficient для измерения результатов тестирования.

Вам также может быть полезно узнать о применении машинного обучения в страховом секторе.

Примеры реальных архитектур ИИ

Выбор правильной архитектуры ИИ — важный шаг в любом проекте машинного обучения. Разумно выбранное решение может принести пользу, предлагая более высокую точность процесса сегментации, более высокую скорость обработки и высокую эффективность использования ресурсов. Кроме того, может случиться так, что некоторые архитектуры лучше подходят для приложений реального или близкого к реальному времени, в то время как другие могут больше подходить для пакетной обработки больших наборов данных, что также следует тщательно рассмотреть.

Есть несколько архитектур сегментации изображений, которые были тщательно протестированы и довольно популярны. Среди них Mask R-CNN и U-net — именно эти алгоритмы использовались командой Intelliarts для тестирования методов сегментации экземпляров и семантической сегментации для решения задач обнаружения повреждений автомобилей. Они позволяют инженерам использовать методы точной настройки готовых весов, то есть моделей, предварительно обученных на большом наборе данных. Таким образом, обучение модели с нуля, что является ресурсоемкой задачей, становится ненужным.

Давайте разберемся, что это за алгоритмы:

Маска R-CNN

Mask R-CNN (региональная сверточная нейронная сеть с масками) — это архитектура глубокого обучения для обнаружения объектов и сегментации экземпляров. Он построен на модели обнаружения объектов Faster R-CNN и имеет часть сегментации, то есть подмножество слоев, работающих с входными данными.

Маска R-CNN работает в два этапа. На первом этапе он генерирует предложения регионов, используя сеть предложений регионов (RPN), которая предлагает области изображения, которые могут содержать объекты. На втором этапе он выполняет обнаружение и сегментацию объектов, одновременно прогнозируя метки классов, ограничивающие рамки и маски для каждого предложения.

Ю-Нет

U-Net — это архитектура сверточной нейронной сети, предназначенная для задач сегментации изображений. Он невероятно популярен для решения задач сегментации медицинских изображений, таких как сегментация опухоли головного мозга, сегментация клеток и сегментация легких. Он также был адаптирован для других приложений сегментации изображений, таких как сегментация дорог при автономном вождении.

Архитектура U-Net имеет характерную U-образную форму, образованную операциями понижения и повышения частоты дискретизации. В сети есть сокращающийся путь, который фиксирует контекст и понижает разрешение входного изображения, и расширенный путь, который обеспечивает точную локализацию и повышает разрешение карт объектов. По сути, сеть может получать подробную информацию о сегментируемых объектах, а также фиксировать контекст и глобальную структуру изображения.

Сегментация экземпляров (Mask R-CNN) и семантическая сегментация (U-net) на основе реальных наблюдений

В нашем недавнем исследовании команда Intelliarts протестировала две популярные архитектуры нейронных сетей, используемые для задач сегментации изображений — Mask R-CNN и U-net. Оба алгоритма компьютерного зрения были обучены, а затем протестированы с использованием одних и тех же наборов данных. Мы использовали предварительно очищенные и упакованные данные из общедоступных наборов данных Coco car damageDetection и наборов изображений Segme.

Несмотря на то, что Mask R-CNN имеет более сложную архитектуру и обрабатывает предложения регионов, а не все изображение, тестирование показало, что на самом деле U-net как алгоритм, основанный на семантической сегментации, работает лучше.

U-net показал оптимальные результаты в первой части теста, когда алгоритмы искусственного интеллекта использовались для выявления повреждений автомобиля и оценки их величины. Кроме того, во второй части, когда инженеры Intelliarts заставили модели компьютерного зрения идентифицировать поврежденные детали автомобиля и распознавать их, Mask R-CNN также показал себя лучше. Это привело нашу команду к выводу, что модель семантической сегментации, особенно протестированная U-net, в настоящее время является лучшим выбором, когда речь идет об осмотре повреждений транспортного средства.

Вы можете попробовать онлайн-демонстрацию, которая представляет собой интерактивную игровую площадку для обученной модели ИИ. Демонстрация демонстрирует возможности модели с поддержкой компьютерного зрения для обнаружения повреждений автомобиля на основе входного изображения или видеокадра.

Как обучить модель ИИ

Глубокие нейронные сети успешно используются для решения компьютерного зрения и других задач. Многие современные решения, построенные на этой технологии, успешно используются в страховании и других нишах. Обучение модели глубокого обучения ML включает следующие этапы:

Подготовка данных

Алгоритмы ИИ требуют значительных объемов цифровых данных, содержащихся в фотографиях и видео, для обучения. Существует сильная корреляция между объемом и качеством данных и результатами обучения. Существует даже концепция, известная как мусор на входе, мусор на выходе (GIGO), которая означает, что бессмысленные входные данные производят бессмысленные выходные данные. Поэтому рекомендуется найти или подготовить обширные наборы данных. В случае оценки транспортных средств необходимы качественные образцы поврежденных транспортных средств с разным износом, с разных ракурсов, при разном освещении и т. д.

Аннотации данных, то есть категоризация и маркировка данных для приложений ИИ, используются для того, чтобы модель понимала, что такое цифровая информация в визуальных материалах и почему она важна. Для обучения модели ИИ для оценки транспортных средств инженерам нужны наборы данных, изображения которых были аннотированы двумя следующими способами:

Обнаружение повреждений. Когда собирается разнообразный набор различных типов повреждений, необходимо пометить и пометить интересующие объекты соответствующими метаданными, используя многоугольник или кисть. Добавление ограничивающих рамок не требуется, так как модель генерирует их сама. Не говоря уже о том, что ненужные ограничивающие рамки могут создавать перекрытия и сбивать с толку обучаемую модель.
Обнаружение автозапчастей. Такая аннотация данных является необходимым параллельным этапом обнаружения повреждений. Маркировка поможет модели распознать отдельные части автомобиля, подвергшиеся повреждению, и даже рассчитать их площадь в предпочтительных единицах измерения.

Маркировка изображений — это почти один из самых трудоемких и ресурсоемких аспектов обучения модели ИИ для приложений компьютерного зрения. Выбор объектов попиксельно и назначение правильных меток, описывающих объекты и их различные атрибуты или функции, требует больших затрат времени. Этот метод представляет собой ручную маркировку, когда люди аннотируют изображения вручную. Тем не менее, помощь алгоритмов машинного обучения может несколько автоматизировать и упростить задачу.

В нашем случае мы использовали изображения, которые уже были правильно помечены из наборов данных с открытым исходным кодом, упомянутых выше. Это считается использованием предварительно очищенных и предварительно упакованных данных. Другие методы сбора данных включают краудсорсинг пользовательских данных, создание частной коллекции и автоматический сбор данных с помощью парсинга и сканирования веб-страниц.

Следует помнить о некоторых передовых методах сбора данных. Они включают в себя определение проблемы и цели проекта машинного обучения, создание конвейеров данных, создание механизмов хранения, оценку собранных данных и сбор кратких данных, соответствующих целям проекта.

Узнайте больше о глубоком обучении и обнаружении объектов из этого тематического исследования Intelliarts AI.

Обучение

После завершения сбора и аннотации подготовленный набор обучающих данных вводится в модель компьютерного зрения. На этом этапе очень важно определить ошибки, которые делает модель, чтобы позже выполнить необходимые корректировки, чтобы избежать неправильного баланса смещения/дисперсии, приводящего к проблемам переобучения и недообучения.

Проблема недообучения возникает, когда модель не может точно отразить взаимосвязь между входными и выходными переменными. Ее можно решить путем упрощения модели.

Проблема переобучения — это сценарий, когда модель настолько знакома с обучающими данными, что алгоритм становится ограниченным и предвзятым. Таким образом, он не будет работать при наличии значительных расхождений в данных. Эту проблему можно решить, усложнив модель, расширив обучающий набор данных или используя аугментацию данных.

После обучения на начальном наборе данных модель переходит к этапу проверки. На этом этапе алгоритм ИИ работает с проверочным набором данных, что позволяет инженерам подтвердить свои предположения о производительности модели. На этом этапе должны быть выявлены любые недостатки, несущественные переменные и другие ошибки.

Тестирование

После успешного завершения обучения и проверки модель компьютерного зрения должна быть протестирована в последний раз. Обычно окончательный или удерживаемый набор состоит из данных, с которыми модель еще не работала. Данные помечены, чтобы инженеры могли рассчитать точность модели. Модель запускается на таком наборе данных только один раз, и результаты рассматриваются как потенциальная точность, которую модель будет показывать на реальных данных. Важно выяснить, способна ли обученная модель давать точные результаты с приемлемой согласованностью.

Обычно весь процесс обучения повторяется с первого шага несколько раз, так как разработчикам может потребоваться подготовить другой набор данных или изменить модель. После нескольких попыток выбирается модель, которая показывает оптимальные результаты, и считается готовой к запуску.

Если вам потребуется помощь в обучении модели ИИ, не стесняйтесь обращаться к нашей опытной команде инженеров по ИИ и машинному обучению.

Решение с двумя моделями искусственного интеллекта от Intelliarts

Инженеры Intelliarts создали программное решение, состоящее из двух моделей ИИ, одна из которых используется для обнаружения повреждений автомобиля, а другая — для обнаружения деталей автомобиля. Таким образом, когда пользователь вводит изображение поврежденного автомобиля в результирующее решение, оно указывает на повреждение и отдельно идентифицирует поврежденную часть автомобиля. Таким образом, результатом обработки изображения являются идентифицированные повреждения и детали автомобиля. Если они пересекаются, вывод решения получается, например, как левая дверь — вмятина. Затем результаты сравниваются с аналогичными случаями в подготовленной базе данных изображений с оценкой стоимости ремонта.

Значение ИИ-решения для обнаружения повреждений автомобиля

Готовое программное решение способно распознавать определенные детали автомобиля, обнаруживать и классифицировать несколько типов повреждений, таких как повреждение металла или стекла, а также смещение или замена деталей автомобиля, оценивать серьезность повреждения и указывать ориентировочную стоимость ремонта. Функциональности обученной модели ИИ должно быть достаточно, чтобы решить большинство простых претензий по страхованию от повреждений автомобиля с небольшим человеческим контролем.

Излишне говорить, что выбор того или иного алгоритма или комбинации алгоритмов, обучение моделей ИИ, а затем построение готового программного решения должны быть тесно связаны с выполнением набора специализированных задач.

Для владельцев продуктов конечной целью проектов компьютерного зрения является применить технологию в страховой отрасли и получить преимущества для бизнеса, которые включают следующее:

Оптимизация затрат. Автоматизированное обнаружение может быть выполнено с гораздо меньшими затратами по сравнению с ручной проверкой, что приводит к значительной экономии средств для страховых компаний.
Сокращение трудоемких задач. Автоматизация львиной доли случаев осмотра автомобилей может снизить нагрузку на сотрудников страховых компаний и позволить им сосредоточиться на других важных задачах.
Улучшенная точность. Автоматизированные системы могут анализировать изображения автомобиля с большей точностью, выявляя даже небольшие повреждения, которые могли быть пропущены людьми-инспекторами.
Ускоренная обработка претензий. Автоматическое обнаружение повреждений автомобиля может сократить время обработки претензий, позволяя страховым компаниям быстрее урегулировать претензии. Это может привести к повышению удовлетворенности клиентов и коэффициента удержания.

Последние мысли

Осмотр транспортных средств является одной из ресурсоемких задач в страховой сфере. Чтобы автоматизировать обработку претензий, когда речь идет об обнаружении повреждений автомобиля, предприятия могут использовать методы компьютерного зрения. Алгоритм сегментации изображения — это то, что может выполнять такие задачи. Тем не менее, необходимо тщательно выбрать оптимальную нейронную сеть, которая может быть Mask R-CNN, U-net или любой другой, для построения модели, правильно обучить модель с использованием методов аннотирования данных, а затем оценить ее производительность.