Начало работы с наборами данных компьютерного зрения: 5-шаговое руководство

Почему / когда / что / где / какой из наборов данных CV в эпоху искусственного интеллекта

Точно так же, как нам нужны материалы, такие как учебники / блоги / видео, для изучения новых навыков и проверки наших знаний, алгоритмы машинного обучения нуждаются в наборах данных, чтобы делать то же самое.

Выбор набора данных имеет решающее значение. Это то, что отличает выдающуюся модель машинного обучения от очередного эксперимента.

Есть много отличных статей о текстовых наборах данных. В последние годы, читая лекции по компьютерному зрению, я заметил, что студенты изо всех сил пытаются понять, что / когда / где / как используются в наборах данных компьютерного зрения.

Итак, вот что я обычно даю начинающим:

Зачем нам нужен набор данных?
Когда нам нужен набор данных?
Что мы измеряем?
Какие наборы данных доступны?
Где мы находим наборы данных?

Давайте начнем.

1- Зачем нам нужен набор данных?

По определению, набор данных - это набор связанных примеров, которые используются для обучения и тестирования модели. Это может быть набор примеров, относящихся к определенной теме или предметной области, а набор данных обычно предназначен для обслуживания одного или нескольких приложений. Набор данных может быть помечен, поэтому он идеально подходит для обучения и тестирования контролируемых моделей. Однако существуют также немаркированные наборы данных, которые используются для обучения неконтролируемых моделей.

Тренируйся и тестируй

С точки зрения машинного обучения нам нужны наборы данных для обучения моделей и последующего их тестирования. Этот процесс требует, чтобы мы выбрали часть набора данных (например, 70%) и «показали» ее алгоритму машинного обучения для обучения. Затем мы выбираем оставшиеся невидимые примеры в наборе данных (например, оставшиеся 30%) и используем их, чтобы проверить, насколько хорошо модель усвоила. Крайне важно, чтобы мы не тестировали на примерах, которые уже использовались для обучения, поскольку модель будет предсказывать то, что ей уже известно, что называется «переобучением» модели. Это то, чего мы не хотели бы, потому что это гарантирует отказ модели только после ее использования в другом наборе данных. Существуют различные методы организации набора обучающих тестов, и вы можете взглянуть на эти примеры.

Бенчмаркинг

Наборы данных также служат инструментом измерения эффективности методов машинного обучения. Необходимо справедливо сравнить набор моделей, выполняющих одну и ту же задачу. Это выполняется путем запуска различных методов для ряда наборов данных. Таким образом, измерение производительности каждого метода будет сопоставимым и позволит аккуратно сравнить результаты.

Али Борджи провел и опубликовал выдающийся набор упражнений по тестированию техник заметности. Вот некоторые из его работ, которые я рекомендую своим студентам:

Примечание на полях: понимание предвзятости

Предвзятость - это обширная тема внутри себя. Мы должны помнить о некоторых важных вещах.

Как и любой другой источник информации, наборы данных несут в себе неотъемлемый уровень предвзятости.

Это не обязательно может иметь негативные последствия, особенно если вы хотите, чтобы ваша модель выдержала проверку на релевантность в и без того предвзятом мире. Однако очень важно, чтобы мы знали о предвзятости и оценивали возможные последствия.

2- Когда нам нужен набор данных?

Целью этой статьи не является сосредоточение внимания на конкретных методах компьютерного зрения. Однако я быстро проведу вас по выбору тем и подчеркну необходимость набора данных.

Обнаружение и распознавание объектов

Обнаружение объектов занимается идентификацией и обнаружением на изображении объекта определенных классов. Интерпретировать локализацию объекта можно разными способами. Обычно используемый подход к аннотации наборов данных включает рисование ограничивающей рамки или многоугольника вокруг объекта, как описано ниже. Такая аннотация позволяет использовать набор данных для обнаружения. Затем тот же набор данных можно использовать для распознавания, если каждая аннотация сопровождается меткой. После выбора объектов их также можно использовать для отметки каждого пикселя изображения, содержащего объект (сегментация).

Сегментация объекта

Сегментация - это процесс разделения изображения на несколько сегментов (наборов пикселей), которые соответствуют определенной области или объекту. Это может быть применено к объектам с использованием методов определения порогов, таких как метод Оцу.
Сегментация также может использовать функции. Современные подходы используют методы глубокого обучения, когда модели обучаются на наборах данных, содержащих тысячи аннотированных меток на уровне пикселей. Эти подходы включают семантическую сегментацию (выбор региона, сопровождаемый меткой) и сегментацию экземпляра (семантическую сегментацию, которая идентифицирует несколько отдельных объектов для каждого класса).

Визуальная выразительность

Зрительная заметность - менее популярная область компьютерного зрения, которая отвечает на следующий вопрос: какая часть изображения привлекает больше внимания? Методы определения значимости получают на вход цветное изображение и возвращают 8-битную карту значимости, где более яркое значение пикселя (максимум 255) подразумевает очень заметный пиксель. Визуальная выразительность используется в различных приложениях, от сжатия данных до размещения продукта и обработки изображений. Наборы данных, такие как MSRA10K, представленные ниже, предоставляют двоичное изображение как основную истину, которое указывает, какие пиксели являются заметными или нет.

3- Что мы измеряем?

Тип и качество аннотаций, доступных в наборе данных, имеют решающее значение для его актуальности. В этом разделе я быстро расскажу вам об основных типах аннотаций. Благодарим @jiayin_Supahands за ее аккуратный очерк этого аспекта, и я рекомендую вам прочитать ее статью. Здесь я лишь даю обзор наиболее часто используемых аннотаций и их отношения к теме.

Ограничивающие рамки

Подход с использованием ограничивающего прямоугольника - это простейший тип аннотаций, который, естественно, включает рисование ограничивающего прямоугольника вокруг интересующего объекта. Обычно он определяется парой координат и соответствующими шириной и высотой. Определение ограничивающей рамки часто должно сопровождаться меткой, если используется для классификации или распознавания. Основным недостатком использования ограничивающей рамки является то, что она маркирует любые пиксели фона, попавшие в ограничивающую рамку, так же, как пиксели целевого объекта. С точки зрения метрики ошибок, он может быть полезен для отслеживания отзыва, но тогда он будет слабым для точности, поэтому возникает потребность в чем-то более конкретном.

Полигоны

Ограничение ограничивающих рамок приводит к необходимости чего-то более точного: аннотации многоугольника. Идея аннотации многоугольника аналогична ограничивающей рамке, но позволяет повысить точность маркировки пикселей за счет уменьшения количества пикселей фона, которые не помечаются. Для такой аннотации требуется такой инструмент, как LabelMe. Label me - это онлайн-инструмент аннотации с открытым исходным кодом для создания баз данных изображений для исследований компьютерного зрения. Он также предлагает свои собственные наборы данных.

Аннотации к строкам

Как следует из названия, этот подход использует линии для аннотирования определенных областей изображения. Линии могут быть полезны в ситуации, когда ограничивающая рамка занимает значительную площадь пикселей. Обнаружение полосы движения - это простой в применении случай использования такой аннотации. Это также можно использовать для мониторинга очередей и ситуаций контроля качества.

Аннотации точек

Эти аннотации представляют собой спецификацию групп ключевых точек изображения, часто несущих семантическую коннотацию. Этот подход очень часто используется для оценки позы и распознавания лиц. Геометрические свойства между разными точками используются в качестве функций, и алгоритмы машинного обучения обучаются с использованием этих функций. Этот подход был использован в нашей недавней работе под названием Выявление ненормального поведения человека с помощью модели, созданной на видео », опубликованной в 2019 году.

4- Какие наборы данных доступны?

Ну сколько угодно :)

Существуют десятки замечательных наборов данных компьютерного зрения, которые сыграли решающую роль в разработке моделей, изменяющих мир. В этом разделе я сосредоточусь на наборе знаковых наборов данных, о которых должен знать каждый профессионал в области компьютерного зрения.

Image-Net

Официальный сайт: http://www.image-net.org/

Image-Net - это легендарный набор данных компьютерного зрения, который способствовал развитию глубокого обучения. Это база данных изображений, организованная в соответствии с иерархией WordNet, в которой каждое значимое понятие, возможно описываемое несколькими словами, называется «набором синонимов» или «набором синонимов». Image-net обычно используется для классификации / распознавания объектов. Этот набор данных содержит в общей сложности 14 197 122, включая 1 034 908 изображений с аннотациями ограничивающей рамки.

Этот набор данных приобрел популярность благодаря соревнованию Image-net, благодаря которому глубокое обучение получило распространение после того, как AlexNet выиграл это соревнование в 2012 году. Он был основан Фей-Фей Ли, и она поделилась своим замечательным путешествием. За этим набором данных в выступлении Теда я расскажу ниже:

Независимо от того, насколько вы опытны / чувствуете себя в компьютерном зрении, я настоятельно рекомендую вам потратить некоторое время на то, чтобы послушать этот вдохновляющий доклад. Несмотря на то, что с момента его выпуска в 2015 году методы усовершенствовались, образ мышления и скромность, представленные в этом видео, по-прежнему очень актуальны.

MNIST

Исходные номера MNIST: http://yann.lecun.com/exdb/mnist/
Fashion MNIST: https://github.com/zalandoresearch/fashion-mnist

Исходный набор данных MNIST, возглавляемый Янном Ле Куном, состоял из большого объема рукописных изображений. Он выполнял жизненно важную роль в обеспечении столь необходимого теста быстрого доступа для ранних сверточных нейронных сетей. К 2017 году CNN достигли неизменно выдающейся точности (более 99%) на MNIST, и возникла потребность в более сложном наборе эталонных данных. Это послужило мотивацией для набора данных Fashion MNSIT. Последняя версия включает обучающий набор из 60 000 примеров и тестовый набор из 10 000 примеров, каждый из которых представляет собой модный предмет размером 28 x 28 пикселей из 10 различных классов.

СИФАР-10

Официальный веб-сайт: https://www.cs.toronto.edu/~kriz/cifar.html

Этот набор данных был выпущен Канадским институтом перспективных исследований (CIFAR) и, вероятно, приобрел некоторую популярность благодаря участию Джеффри Хинтона и его сотрудников. Набор данных CIFAR-10 содержит 60 000 цветных изображений 32x32px в 10 различных классах. Он используется для обучения / тестирования моделей распознавания объектов.

COCO

Официальный сайт: http://cocodataset.org/

Набор данных "Общие объекты в контексте" (COCO) - это набор данных для обнаружения, сегментации и субтитров. COCO 2017 имеет обучающую и проверочную коллекцию из 123 287 изображений, содержащих в общей сложности 886 284 экземпляра. Эти экземпляры разбросаны по 80 категориям объектов.

Face2Text

Официальный сайт: https://rival.research.um.edu.mt/

Существует значительное количество наборов данных, охватывающих различные типы данных о лицах. Здесь я решил показать новый и инновационный набор данных, собранный моими коллегами из Мальтийского университета. В отличие от других наборов данных для обнаружения или распознавания лиц, этот аннотируется с использованием описательного текста. Это позволяет обучить модели машинного обучения возвращать текстовое описание лица, заданного просто изображением. Полную информацию о публикации, представляющей этот набор данных, можно найти здесь, а сам набор данных можно получить, заполнив контактную форму на официальном сайте этого проекта.

MSRA10K

Официальный веб-сайт: https://mmcheng.net/msra10k/

Это база данных изображений выдающихся объектов. Каждое изображение в этом наборе данных имеет маску для наиболее заметной области изображения. Набор данных MSRA10K приобрел свою актуальность из-за объема содержащихся в нем изображений. Он состоит из 10 000 цветных изображений с соответствующей маской двоичного изображения для заметного объекта.

MSR 3D

Официальный веб-сайт: https://www.microsoft.com/en-us/download/details.aspx?id=52358

Набор данных Microsoft Research (MSR) включает последовательность из 100 изображений (цвета и глубины), снятых с 8 камер, показывающих сцены брейк-данса и балета. Этот набор данных содержит кадры для каждой сцены. Каждый кадр имеет цветное изображение и высококачественное изображение с глубиной оттенков серого, снятое инфракрасной камерой.

КОТЫ

Официальный сайт: www.cotsdataset.info

Это набор данных, который я тщательно разработал и построил в прошлом году для оценки методов обработки изображений. Одно из таких приложений - рисование там, где объект удален из изображения. Методы рисования обычно оцениваются с использованием субъективного подхода или подхода, основанного на мнении, поскольку в наборах данных не будет адекватной достоверной информации. Это послужило мотивацией для этого набора данных, который имеет серию прогрессивных сцен, как показано ниже. Более подробная информация об этом наборе данных и опыте его создания будет представлена в отдельной работе.

5- Где мы находим наборы данных?

В академических кругах вы обычно встречаете наборы данных в рецензируемых публикациях по интересующей вас теме. Однако иногда вам просто нужно просмотреть свои варианты, и для этого вам нужна хорошая платформа. Вот мои 4 любимых источника:

Поиск по набору данных Google

Поиск по набору данных
Подробнее о включении наборов данных в поиск по набору данных. العربية Deutsch English Español (España) Español… datasetsearch.research.google.com

Плюсы: очень обширно.
Минусы: легко потеряться при сравнении разных наборов данных.

VisualData

Www.visualdata.io

Плюсы: ориентирован на наборы данных компьютерного зрения, отличный интерфейс, простой в использовании и быстрый доступ к прямым репозиториям.
Минусы: все еще ограничен выбор доступных наборов данных.

Kaggle

Www.kaggle.com

Плюсы: разнообразие наборов данных для разных доменов, активное сообщество, конкурсы.
Минусы: может потребоваться больше времени, чтобы увидеть, что предлагает каждый набор данных.

Tensorflow

Наборы данных TensorFlow
Набор наборов данных, готовых к использованию с TensorFlow или другими фреймворками Python ML, такими как Jax, что обеспечивает простоту использования… www.tensorflow .org

Плюсы: обширный выбор прямых страниц для каждого набора данных. Каждый набор данных также сопровождается отличными ресурсами использования.
Минусы: для полноты картины нужно выдавить недостаток. В этом случае недостатком является то, что (очевидно) этот веб-сайт предоставляет только ресурсы Tensorflow.

Эта статья представляет собой учебник, охватывающий все основы, необходимые для знакомства с увлекательной областью компьютерного зрения. Я надеюсь, что теперь вы чувствуете себя более уверенно в отношении наборов данных и что сама эта тема для вас демистифицирована. Если нет, я с нетерпением жду вашего отзыва, чтобы я мог решить любые проблемы, с которыми вы можете столкнуться.

Мы увидели, как мы можем использовать наборы данных и какие из них хорошо подходят для разных ситуаций. Однако это еще не конец истории. Машинное обучение и наборы данных имеют очень сложные и требовательные отношения. Иногда моделей машинного обучения недостаточно, а наборы данных могут быть ограничивающими. Вот где необходимо расширение данных. В этом блоге я также объяснил, как наборы данных важны для тестирования различных методов. С другой стороны, это проще сказать и сделать, потому что выбор показателей оценки - деликатный рецепт, который необходимо адаптировать.

В итоге, эта статья далеко не завершает тему наборов данных компьютерного зрения. Это динамично развивающаяся область, в которой есть много тем для изучения. Я могу только пообещать, что буду продолжать делиться своей точкой зрения посреди этого прогресса.

Дилан Сейчелл - научный сотрудник факультета искусственного интеллекта Мальтийского университета, специализирующийся на компьютерном зрении. опубликовал несколько международных рецензируемых публикаций и две книги. Он был удостоен ряда международных наград за свою работу, таких как Золотая печать за выдающиеся достижения в области электронной коммерции на CeBit, первая премия на конкурсе спутниковой навигации Европейского космического агентства в 2010 году и занявшая второе место в 2017 году. В 2015 году Дилан был выбран руководителем. Мальтийская группа разработчиков Google и входила в состав национальной целевой группы правительства Мальты по ИИ. Дилан также очень активен в сфере стартапов, где он основал отмеченные наградами стартапы и наставляет другие стартапы, помогая им преодолевать первоначальные проблемы бизнеса.

Связаться можно через Twitter, LinkedIn или Instagram.