1. WeClick: семантическая сегментация видео со слабым контролем с помощью аннотаций кликов (arXiv)

Автор: Пэйдун Лю, Цзыбинь Хэ, Сиюй Янь, Юн Цзян, Шутао Ся, Фэн Чжэн, Маовэй Ху

Аннотация : по сравнению с утомительным аннотированием попиксельной маски гораздо проще аннотировать данные с помощью кликов, что занимает всего несколько секунд для изображения. Однако применение кликов для изучения модели семантической сегментации видео ранее не изучалось. В этой работе мы предлагаем эффективный слабо контролируемый конвейер семантической сегментации видео с аннотациями кликов, называемый WeClick, для экономии трудоемких усилий по аннотированию за счет сегментации экземпляра семантического класса всего одним щелчком мыши. Поскольку подробная семантическая информация не фиксируется кликами, прямое обучение с помощью меток кликов приводит к плохим прогнозам сегментации. Чтобы смягчить эту проблему, мы разрабатываем новую стратегию дистилляции знаний о потоке памяти, чтобы использовать временную информацию (названный потоком памяти) в большом количестве неразмеченных видеокадров путем перегонки соседних прогнозов в целевой кадр посредством оценки движения. Кроме того, мы используем дистилляцию ванильных знаний для сжатия модели. В этом случае WeClick изучает компактные модели семантической сегментации видео с недорогими аннотациями кликов на этапе обучения, но при этом получает точные модели в реальном времени в течение периода вывода. Результаты экспериментов с Cityscapes и Camvid показывают, что WeClick превосходит современные методы, повышает производительность на 10,24 % по сравнению с базовым уровнем и обеспечивает выполнение в режиме реального времени.

2. Tнаграда за прозрачное применение машинного обучения в обработке видео (arXiv)

Автор: Лука Мурн, Марк Горриз Бланш, Мария Сантамария, Фиона Ривера, Марта Мрак

Аннотация . Методы машинного обучения для более эффективного сжатия и улучшения качества видео были разработаны благодаря достижениям в области глубокого обучения. Новые методы, считающиеся усовершенствованной формой искусственного интеллекта (ИИ), привносят невиданные ранее возможности. Тем не менее, они, как правило, имеют форму ресурсоемких черных ящиков (слишком сложных и малопрозрачных в отношении внутренней работы). Поэтому их применение может быть непредсказуемым и, как правило, ненадежным для крупномасштабного использования (например, в прямом эфире). Целью этой работы является понимание и оптимизация изученных моделей в приложениях для обработки видео, чтобы системы, включающие их, можно было использовать более надежным образом. В этом контексте в представленной работе представлены принципы упрощения изученных моделей с целью повышения прозрачности при реализации машинного обучения для приложений для производства и распространения видео. Эти принципы демонстрируются на примерах сжатия видео, показывая, как можно добиться экономии битрейта и снижения сложности за счет упрощения соответствующих моделей глубокого обучения.

3. На пути к чрезвычайно компактным RNN для распознавания видео с полностью декомпозированной иерархической структурой Такера (arXiv)

Автор:Мяо Инь, Сию Ляо, Сяо-Ян Лю, Сяодун Ван, Бо Юань

Аннотация: Рекуррентные нейронные сети (RNN) широко используются в анализе последовательностей и моделировании. Однако при обработке многомерных данных RNN обычно требуют очень больших размеров моделей, что создает ряд проблем при развертывании. Несмотря на то, что были предложены различные предыдущие работы по уменьшению размеров моделей RNN, выполнение моделей RNN в средах с ограниченными ресурсами по-прежнему остается очень сложной проблемой. В этой статье мы предлагаем разработать чрезвычайно компактные модели RNN с полностью декомпозированной иерархической структурой Такера (FDHT). Разложение HT не только обеспечивает гораздо более высокое снижение затрат на хранение, чем другие подходы к тензорному разложению, но также обеспечивает лучшее повышение точности для компактных моделей RNN. Между тем, в отличие от существующих методов, основанных на тензорной декомпозиции, которые могут декомпозировать только входной-скрытый слой RNN, предлагаемый нами подход полной декомпозиции обеспечивает всестороннее сжатие для всех моделей RNN с сохранением очень высокой точности. Наши экспериментальные результаты на нескольких популярных наборах данных распознавания видео показывают, что предлагаемый нами полностью декомпозированный иерархический LSTM на основе такеров (FDHT-LSTM) чрезвычайно компактен и высокоэффективен. Насколько нам известно, FDHT-LSTM впервые последовательно достигает очень высокой точности всего с несколькими тысячами параметров (от 3132 до 8808) в различных наборах данных. По сравнению с современными сжатыми моделями RNN, такими как TT-LSTM, TR-LSTM и BT-LSTM, наша FDHT-LSTM одновременно имеет меньше параметров на порядок (от 3985x до 10711x) и значительное улучшение точности (от 0,6% до 12,7%).

4. Преобразование сетевых архитектур для сквозного кодирования изображений/видео на основе глубокого обучения в цветовых пространствах с субдискретизацией (arXiv)

Автор: Хилми Э. Эгилмез, Анкитеш К. Сингх, Мухаммед Кобан, Марта Карчевиц, Иньхао Чжу, Ян Ян, Амир Саид, Тако С. Коэн

Вывод:большинство существующих архитектур сквозного кодирования изображений/видео (DLEC) на основе глубокого обучения предназначены для цветового формата RGB без субдискретизации. Однако для достижения превосходной производительности кодирования разработаны многие современные стандарты сжатия на основе блоков, такие как высокоэффективное кодирование видео (HEVC/H.265) и универсальное кодирование видео (VVC/H.266). в первую очередь для формата YUV 4:2:0, где компоненты U и V субдискретизируются с учетом зрительной системы человека. В этом документе исследуются различные конструкции DLEC для поддержки формата YUV 4:2:0 путем сравнения их производительности с основными профилями стандартов HEVC и VVC в рамках общей системы оценки. Кроме того, предлагается новая архитектура сети преобразования для повышения эффективности кодирования данных YUV 4:2:0. Экспериментальные результаты на наборах данных YUV 4:2:0 показывают, что предложенная архитектура значительно превосходит наивные расширения существующих архитектур, разработанных для формата RGB, и достигает среднего улучшения скорости BD примерно на 10% по сравнению с внутрикадровым кодированием в HEVC.