На прошлой неделе Voxel51 провел февраль 2023 года Computer Vision Meetup. В этом сообщении блога вы найдете записи воспроизведения, основные моменты презентаций и вопросы и ответы, а также расписание предстоящих встреч, чтобы вы могли присоединиться к нам на будущем мероприятии.

Во-первых, спасибо за голосование за вашу любимую благотворительную организацию!

Вместо халявы мы дали участникам Meetup возможность помочь направить наши ежемесячные пожертвования на благотворительные цели. Благотворительной организацией, получившей наибольшее количество голосов подавляющим большинством голосов в этом месяце, стала Direct Relief. В этом месяце мы отправляем благотворительное пожертвование в размере 200 долларов США программе Direct Relief Помощь при землетрясении в Турции и Сирии от имени сообщества компьютерного зрения.

Краткий обзор встречи по компьютерному зрению

Паула Рамос // Устранение узкого места развертывания ИИ на периферии с помощью OpenVINO

Вишал Раджпут // Понимание распознавания речи с использованием модели Whisper от OpenAI

Следующие шаги

Устранение узкого места развертывания ИИ на периферии с помощью OpenVINO

Видео повтор

Управляющее резюме

Одна из самых больших проблем в компьютерном зрении — это данные. Как отмечает Паула Рамос, специалист по компьютерному зрению, искусственному интеллекту и Интернету вещей в Intel, хорошие наборы данных создают хорошие модели; плохие наборы данных повлияют на производительность и точность модели и могут вас разочаровать. Получение качественных данных является распространенной проблемой в случаях использования ИИ в разных отраслях. Например, компания Eigen Innovations, партнер Intel, помогает производителям предотвращать проблемы с качеством путем точного выявления дефектов. Но в реальных сценариях может быть дисбаланс данных, когда не хватает образцов дефектов для обучения точной модели. Так что мы можем сделать? Подобные наборы данных из реального мира послужили мотивом для создания Anomalib.

Введение в Аномалиб

Anomalib, часть набора инструментов OpenVINO, представляет собой библиотеку для неконтролируемого обнаружения аномалий от сбора данных до развертывания. В рамках учебного курса, подготовленного Паулой для CVPR в прошлом году, она проверила наличие дефектов в производственной системе. Для обучения модели она использовала Anomalib и смогла обучить свою модель всего с 10 изображениями, ни одно из которых не было образцами дефектов. Как происходит это волшебство? Паула исследует основные компоненты Anomalib, чтобы мы могли узнать больше.

Изучение Anomalib: алгоритмы

Anomalib включает в себя современные алгоритмы обнаружения аномалий по четырем основным категориям: модели, основанные на знаниях, модели кластеризации, модели, основанные на реконструкции, и вероятностные модели. Выбирайте модель в зависимости от вашего варианта использования.

Изучение Anomalib: модули, инструменты и тесты

Anomalib включает в себя модули для данных, предварительной обработки, моделей, постобработки и развертывания. Он также включает в себя инструменты и тесты. Паула описывает каждую из этих семи областей.

Компонент Anomalib data предоставляет адаптеры наборов данных для растущего числа наборов общедоступных эталонных данных как в области изображений, так и в области видео. Пользовательские наборы данных также поддерживаются.

Предварительная обработка применяет преобразования к входным изображениям перед обучением и при необходимости делит изображение на перекрывающиеся или неперекрывающиеся плитки. Паула разделяет распространенный вариант использования мозаики изображений в наборах данных реального мира: изображения с высоким разрешением, которые включают аномалии в относительно небольшой области пикселей. Подобные сценарии могут быть сложными для обработки модели глубокого обучения, поэтому для решения этой проблемы Anomalib может привязывать изображения к патчам для поддержки обучения изображений с высоким разрешением.

Компонент Anomalib model содержит набор современных алгоритмов обнаружения и локализации аномалий, а также набор модульных компонентов, которые служат строительными блоками для создания пользовательских алгоритмов.

Anomalib также предлагает функции постобработки для нормализации, пороговой обработки и визуализации.

Варианты развертывания Anomalib включают использование Torch, ONNX, Gradio или OpenVINO.

В библиотеке Anomalib есть инструменты, которые включают точки входа для обучения, тестирования, вывода, сравнительного анализа и оптимизации гиперпараметров.

Кроме того, библиотека Anomalib постоянно проходит модульную интеграцию и регрессионные тесты для выявления любых потенциальных дефектов.

Начало работы с Anomalib

Паула показывает, как легко начать работу с Anomalib, включая демонстрацию:

  • Создайте среду для запуска Anomalib (Python версии 3.8)
  • Клонируйте репозиторий Anomalib и установите его локально (с требованиями OpenVINO)
  • Установите Jupyter Notebooks и ipywidgets
  • Загрузите набор данных MVTec-AD, необходимый для запуска демонстрации, прежде чем следовать демонстрации в блокноте.
  • Зайдите в блокнот Anomalib getting_started (доступно на GitHub), чтобы начать работу, и запустите демонстрацию, чтобы увидеть ее в действии.

Демонстрация показывает, как легко установить Anomalib и другие необходимые пакеты, выбрать модель, обновить файл конфигурации, начать обучение модели, визуализировать результаты и выполнить вывод.

Теперь ваша очередь попробовать! Кроме того, попробовав Anomalib, вы можете выиграть одну из пяти толстовок ограниченного выпуска, если выполните следующие действия до 16 февраля 2023 года.

Другие интересные инструменты: OpenVINO и Intel Geti

Anomalib является частью экосистемы OpenVINO. Если вы заинтересованы в использовании набора инструментов OpenVINO в своих развертываниях, Паула предлагает вам ознакомиться с примерами в учебных блокнотах OpenVINO. Имеется более 60 демонстраций, включая обнаружение объектов, оценку позы, распознавание действий человека, передачу стиля, определение текста, распознавание текста, стабильную диффузию, YOLOv8 и многое другое.

В своей презентации Паула также представляет еще один интересный инструмент для компьютерного зрения: платформу. Intel Geti позволяет пользователям создавать и оптимизировать модели компьютерного зрения, абстрагируясь от технических сложностей с помощью интуитивно понятного интерфейса. Узнайте больше об Intel Geti менее чем за 3 минуты в видео, демонстрирующем, как платформа искусственного интеллекта компьютерного зрения используется для оптимизации производства кофе.

Резюме вопросов и ответов

Вот краткий обзор живых вопросов и ответов из этой презентации во время виртуальной встречи Computer Vision Meetup:

Можем ли мы после обнаружения аномалии использовать DC-GAN для устранения аномалии в изображении или решения проблемы дисбаланса данных?

Используя DC-GAN, возможно, удастся устранить аномалию, но она не сможет решить проблему дисбаланса на 100%. Есть еще один способ попытаться сбалансировать данные; в библиотеке Anomalib у нас есть возможность создавать научные аномалии, но некоторый дисбаланс все равно будет существовать.

Может ли OpenVINO ускорить модели глубокого обучения, развернутые на ЦП, до той же производительности, что и GPU?

Да, с OpenVINO у нас есть гибкость для запуска моделей на различном оборудовании, поэтому мы можем сначала загрузить модель в ЦП, затем мы можем загрузить модель в ГП, и мы можем получить преимущество в ускорении производительности модели. . Присоединяйтесь к Computer Vision Meetup 11 мая в 10:00 по тихоокеанскому времени, чтобы ознакомиться со второй частью сегодняшней презентации, посвященной высокопроизводительным моделям машинного обучения для граничных приложений с использованием OpenVINO.

Можем ли мы получить доступ к этому блокноту Jupyter?

Да, вы можете получить доступ к Jupyter Notebook в репозитории Anomalib на GitHub, включая блокнот getting_started, которым мы поделились сегодня.

В каких реальных примерах, по вашему мнению, полезен этот тип обнаружения аномалий? Кроме примера из отрасли, который вы уже показали?

В нашем примере мы показали, насколько полезен Anomalib в производственных или заводских условиях. Другие реальные варианты использования включают безопасность, например проверку багажа на наличие аномалий в аэропортах. А также здравоохранение; например, есть сценарии, в которых нам нужно обнаружить наличие рака на медицинских изображениях. Таким образом, Anomalib предназначен не только для производственных данных, но и для использования в здравоохранении и безопасности.

Как насчет вывода границ? Многие ли сети обнаружения аномалий способны к «сжатию» и поэтому могут быть эффективно развернуты с помощью tinyML?

OpenVINO дает нам возможность писать модели один раз и развертывать их везде, включая возможность запуска логических выводов на периферии. С OpenVINO вы можете использовать меньше памяти, а также использовать различные типы оборудования; поэтому, используя всего одну модель, вы можете развернуть ее везде, независимо от оборудования, необходимого для ее запуска. Хотя в этой области есть конкуренты, OpenVINO имеет отличительные особенности, которые делают его привлекательным для различных вариантов использования, включая периферийный ИИ.

Как обрабатывалась маркировка кофе при работе с искусственным интеллектом? Нужно ли помечать тысячи изображений?

Еще когда Паула работала над докторской диссертацией в области компьютерного зрения и машинного обучения, она создала систему для обнаружения производства кофе, до того, как запуск Intel Geti значительно упростил тот же вариант использования. Паула объясняет требования к маркировке изображений в обоих сценариях: «Во время работы над диссертацией мне нужно было аннотировать десятки тысяч изображений в видео. (Однако) используя Intel Geti, мне нужно было просто аннотировать 20 изображений для начала в первом раунде обучения». Если вам интересно узнать больше об Intel Geti, посетите geti.intel.com.

Насколько легко начать работу с Intel Geti для тех, у кого нет обширных знаний в области глубокого обучения?

Если у кого-то нет знаний в области глубокого обучения, он может начать с Intel Geti простым способом. Intel Geti обладает такой гибкостью, потому что он абстрагируется от технических сложностей благодаря интуитивно понятному пользовательскому интерфейсу. Например, в случае использования, касающемся производства кофе, мы можем привлечь бухгалтера, фермера и специалиста по данным, каждый из которых имеет разный уровень знаний в области глубокого обучения.

Дополнительные ресурсы

Ознакомьтесь с дополнительными ресурсами в презентации:

Спасибо, Паула, от имени всего сообщества Computer Vision Meetup за то, что поделились своим опытом работы с Anomalib, OpenVINO и Intel Geti для оптимизации моделей компьютерного зрения, особенно на периферии!

Понимание распознавания речи с использованием модели Whisper OpenAI

Видео повтор

Управляющее резюме

Вишал Раджпут, инженер по ИИ, автор, представляет обзор технологии распознавания речи и ее важности в современном цифровом мире. Для начала Вишал дает обзор того, что такое распознавание речи, как описано в проведенном им поиске в Google, который выявил главный результат Oxford Languages: способность компьютера идентифицировать звуки, воспроизводимые человеческой речью, и реагировать на них.

Зачем нам нужны системы распознавания речи и чем они могут нам помочь? Вишал попадает в блики. Во-первых, мы можем, так почему бы и нет? Далее, они могут сделать нашу жизнь проще и комфортнее. Кроме того, их можно использовать в сценариях, где мы не можем использовать руки. Наконец, они ускоряют работу — речь может быть почти в три раза быстрее, чем набор текста.

Чтобы познакомить нас с современным распознаванием речи, Вишал сначала возвращает нас в 2013–2015 годы, чтобы дать нам представление о ранних системах распознавания речи.

Ранние технологии распознавания речи, такие как Cortana, имели некоторые проблемы, в том числе низкое отношение сигнал/шум, изменчивость акцента говорящего и трудности с пониманием естественной разговорной речи. Отчасти это связано с тем, как они действовали. Каждая модель обучалась по-разному, с разными целями. Изменение одной модели создало слепые пятна с точки зрения того, как это повлияло на другие.

Для достижения лучших результатов было внедрено глубокое обучение, сначала в акустические модели. Следующим шагом было создание сквозного речевого движка для глубокого обучения. И вы можете видеть, что по мере увеличения размера данных и модели точность распознавания речи значительно возросла.

Затем Вишал обсуждает различные модели глубокого обучения, используемые в системах распознавания речи, и особо выделяет две модели, которые очень важны для развития распознавания речи: коннекционистская временная классификация (CTC), которая решает проблему выравнивания при распознавании речи, и последовательность к последовательности. (слушай присутствующих и произноси по буквам, или LAS). Вишал отмечает, что эти две важные модели предшествовали вниманию, которое было опубликовано в статье Внимание — это все, что вам нужно в 2017 году.

Затем Вишал уделяет время другим важным работам по распознаванию речи, в том числе: wav2vec, vq-wav2vec, wav2vec2 и XLSR-wav2vec.

Прежде чем углубиться в OpenAI Whisper, Вишал отмечает, что существует два способа создания систем распознавания речи: контролируемый и неконтролируемый. Unsupervised предлагает более миллиона часов аудиоданных; в то время как под наблюдением доступно только около 5000 часов данных.

Что удалось сделать OpenAI Whisper, чтобы превзойти предыдущие модели? Во-первых, OpenAI Whisper представила слабый контроль, чтобы масштабировать свои данные с 5000 до 680 000 часов, приближая их к масштабу неконтролируемых систем. Кроме того, OpenAI использовала методы автоматической фильтрации автоматизированных расшифровок, доступных в Интернете, а также ручную проверку для повышения качества расшифровок.

Глядя на блок трансформатора Whisper, можно увидеть, что архитектура похожа на готовый преобразователь с основными отличиями в использовании спектрограммы Мела и использовании специализированных токенов.

Вишал исследует токены (отмечая, что на самом деле вы этого не видите, это происходит в бэкенде): языковой тег, отсутствие речи, расшифровка, перевод и временные метки. Модель обучена 99 различным языкам и может определять, на каком языке говорят, транскрибировать его в текст, при необходимости переводить на другой язык и предоставлять временные метки для каждого звука или слова в аудиообразце.

Кроме того, OpenAI точно настроил модель Whisper, чтобы лучше различать говорящих разных говорящих и стандартизировать текст (например, стандартизировать цвет и цвет) перед расчетом показателя частоты ошибок в словах (WER).

Модели распознавания речи все еще нуждаются в улучшении в области улучшения стратегий декодирования длинных форм транскрипции, увеличения обучающих данных для языков с меньшими ресурсами, изучения тонкой настройки и влияния языковых моделей на надежность. Тем не менее, Whisper по-прежнему дает впечатляющие результаты. Чтобы дать нам представление, Вишал запускает 25 секунд звука через Whisper, чтобы показать, насколько точно он преобразует звук в текст. В примере повествования, произнесенного с шотландским акцентом, Шепот неправильно истолковал только одно слово (приняв Элдонов за Йилденов) во всем аудиофайле!

Начать работу с моделью Whisper легко (например, начните здесь, на GitHub).

Резюме вопросов и ответов

Предусмотрено ли векторное квантование для новых конвейеров ASR? Модели смеси Гаусса напоминают мне модели диффузии.

Да, для трубопроводов ASR модели смеси Гаусса аналогичны моделям диффузии.

Можете ли вы объяснить, как использование БПФ сохраняет последовательность в речи?

БПФ не требует сохранения последовательностей, поскольку размер окна очень и очень мал, например, 20 миллисекунд. FFT не сохраняет, а RNN сохраняет.

Помимо потери контраста, есть потеря реконструкции. Реконструкция L1 работает лучше, чем реконструкция L2, и почему?

Как правило, вы комбинируете потери, чтобы получить лучшую производительность, а не просто используете потери L1 или L2. Это комбинация обоих, которая работает лучше, чем каждый из них по отдельности. А производительность зависит от задачи. Иногда L2 будет работать лучше, а иногда лучше L1.

В чем разница между GPT и BERT?

Насколько я понимаю GPT, GPT не двунаправленный, потому что он предсказывает будущее, а BERT двунаправленный. (Это понятие упоминается в представлениях двунаправленного энкодера для трансформаторов.) Это основное различие между ними.

В каких реальных сценариях модель Whisper имеет преимущества перед традиционным ASR?

Модель Whisper определенно лучше справляется с шумом. Это на самом деле соответствует человеческому пониманию, а в некоторых случаях даже лучше человеческого.

Дополнительные ресурсы

Ознакомьтесь с этими дополнительными ресурсами:

Большое спасибо Вишалу от имени всего сообщества Computer Vision Meetup за то, что он информировал нас о распознавании речи и последней модели Whisper от OpenAI.

Места встречи компьютерного зрения

Число участников Computer Vision Meetup выросло почти до 3000 участников всего за несколько месяцев! Цель встреч — объединить сообщества специалистов по данным, инженеров по машинному обучению и энтузиастов открытого исходного кода, которые хотят поделиться и расширить свои знания в области компьютерного зрения и дополнительных технологий.

Оповещение о новой встрече — мы только что добавили место проведения встречи Computer Vision в Сингапуре! Присоединяйтесь к одному из (сейчас) 13 мест Meetup, ближайших к вашему часовому поясу.

Предстоящие спикеры и расписание встречи Computer Vision Meetup

У нас уже есть интересные спикеры, которые записались на следующие несколько месяцев! Станьте участником Ближайшей к вам встречи Computer Vision, а затем зарегистрируйтесь в Zoom для участия в встречах по вашему выбору.

9 марта в 10:00 по тихоокеанскому времени

  • Освещение изображений в эпоху глубокого обучения — Soumik Rakshit, инженер машинного обучения (Weights & Biases)
  • Эффективное обучение и тонкая настройка Vision Transformers с помощью Colossal AI — Sumanth P (ML Engineer)
  • Увеличить ссылку

13 апреля в 10:00 по тихоокеанскому времени

11 мая в 10:00 по тихоокеанскому времени

  • Машинное обучение для быстрой и надежной МРТ — Налини Сингх (MIT)
  • Быстрые и эффективные модели машинного обучения для периферийных приложений с использованием OpenVINO — Паула Рамос, доктор философии (Intel)
  • Увеличить ссылку

Втягиваться!

Есть много способов принять участие в встречах Computer Vision Meetups. Обратитесь, если вы идентифицируете себя с любым из них:

  • Вы хотите выступить на предстоящей встрече
  • У вас есть физическое пространство для собраний в одном из мест Meetup, и вы хотели бы сделать его доступным для Meetup.
  • Вы хотите стать соорганизатором Meetup
  • Вы хотите стать соспонсором Meetup

Свяжитесь с одним из организаторов Meetup Джимми Герреро на Meetup.com или свяжитесь с ним через LinkedIn, чтобы обсудить, как подключиться.

Сеть Computer Vision Meetup спонсируется , компанией, разработавшей набор инструментов компьютерного зрения с открытым исходным кодом. FiftyOne позволяет группам специалистов по обработке и анализу данных повысить производительность своих моделей компьютерного зрения, помогая им выбирать высококачественные наборы данных, оценивать модели, находить ошибки, визуализировать встраивания и быстрее приступать к работе. Легко начать, всего за несколько минут.

Первоначально опубликовано на https://voxel51.com 13 февраля 2023 г.