Что на arXiv: Еженедельный обзор № 3

Приветствую, Среднее сообщество,

В этом выпуске представлены публикации, опубликованные на arXiv за период с 8 по 14 апреля, и представлены идеи и анализ наиболее значимых исследований и тенденций.

Давайте погрузимся!

Сегментируйте все везде и сразу

Расширение Segment Anything Model (SAM), которое позволяет использовать кросс-модальные подсказки: ограничивающие рамки, точки, каракули, текст, аудио или без подсказок. Встроенный инструмент позволяет не только сегментировать изображения, но и расширяет его до сегментации видео и поисковой системы визуальных изображений, что делает его мощным инструментом для автоматизации аннотаций.

В этой статье представлен SEEM, интерактивная модель для одновременного сегментирования всего и везде на изображении. У SEEM есть четыре преимущества: i) Универсальность за счет введения универсального механизма подсказок для различных типов подсказок, включая точки, прямоугольники, каракули, маски, тексты и упомянутые области другого изображения; ii) композиционность за счет изучения совместного визуально-семантического пространства для визуальных и текстовых подсказок для составления запросов на лету для вывода, как показано на рис. 1; iii) интерактивность за счет включения обучаемых подсказок памяти для сохранения информации об истории диалогов с помощью перекрестного внимания, управляемого маской; и iv) семантическая осведомленность за счет использования текстового кодировщика для кодирования текстовых запросов и маскирования меток для сегментации открытого словаря.

Семантический сегмент Anything (SSA)

Улучшение Модели Segment Anything Model (SAM), которая создает структуру семантической сегментации для автоматизации аннотаций.

Благодаря комбинированной архитектуре сегментации с близким набором и сегментации с открытым словарем SSA обеспечивает удовлетворительную маркировку для большинства образцов и имеет возможность предоставлять более подробные аннотации с использованием метода подписи к изображению. Этот инструмент заполняет пробел в ограниченной мелкозернистой семантической маркировке SA-1B, а также значительно снижает потребность в ручном аннотировании и связанных с этим затратах. Он может служить основой для обучения крупномасштабным моделям визуального восприятия и более точным моделям CLIP.

RECLIP: Ресурсоэффективный CLIP путем обучения с использованием небольших изображений

Конвейер обучения для CLIP был оптимизирован за счет предварительного обучения модели на небольших изображениях.

Вдохновленные понятием «от грубого к точному» в компьютерном зрении, мы используем небольшие изображения, чтобы эффективно учиться на крупномасштабном языковом наблюдении, и в конце настраиваем модель с данными высокого разрешения. Поскольку сложность преобразователя зрения сильно зависит от размера входного изображения, наш подход значительно снижает требования к обучающим ресурсам как в теории, так и на практике.

Помимо конфиденциальности: возможности и проблемы синтетических данных

Проницательный обзор возможностей и проблем в различных областях исследований, связанных с созданием и использованием синтетических данных.

Мы изучаем, могут ли и каким образом синтетические данные стать доминирующей силой в мире машинного обучения, обещая будущее, в котором наборы данных можно будет адаптировать к индивидуальным потребностям.

В документе представлена полезная таблица, в которой собраны основные показатели для измерения на протяжении всего цикла разработки синтетических данных, что делает его ценным ресурсом для тех, кто работает в этой области.

Выявление причин снижения эффективности распознавания объектов в зависимости от уровня дохода и географического положения

Всесторонняя оценка справедливости модели ИИ с учетом доходов и географических факторов.

комментируя изображения с Dollar Street, популярного эталона географически и экономически разнообразных изображений, маркируя каждое изображение такими факторами, как цвет, форма и фон. Эти аннотации открывают новое подробное представление о том, как объекты различаются по доходам/регионам. Затем мы используем эти различия объектов, чтобы точно определить уязвимости моделей в зависимости от доходов и регионов. Мы изучили ряд современных моделей зрения и обнаружили, что различия в производительности больше всего связаны с различиями в текстуре, окклюзии и изображениях с более темным освещением.

Перегрузка: атаки с задержкой при обнаружении объектов для пограничных устройств

Новая атака на конвейер с немаксимальным подавлением (NMS) для снижения скорости и принятия решений встроенными алгоритмами.

В отличие от обычных состязательных атак для неправильной классификации, цель атак с задержкой — увеличить время вывода, что может помешать приложениям отвечать на запросы в течение разумного времени. Такого рода атаки широко распространены в различных приложениях, и мы используем обнаружение объектов, чтобы продемонстрировать, как работают такие атаки.

Это открытие может существенно повлиять на безопасность встроенных систем машинного обучения, позволяя злоумышленникам создавать условия, которые перегружают систему каждым запросом, вызывая ее сбои в работе в течение длительного периода и создавая возможности для эксплуатации.

Больше читать

RoboBEV: На пути к надежному восприятию с высоты птичьего полета в условиях коррупции. Многокамерное отслеживание нескольких объектов и слияние радаров при умеренном повреждении данных;
RadarGNN: трансформационно-инвариантная графовая нейронная сеть для восприятия на основе радара. GraphNN для надежного радиолокационного синтеза;
Преобразователь обнаружения со стабильным согласованием. Потери с контролем положения для классификации ограничительной рамки уменьшают неоднозначность и улучшают качество обнаружения объектов для детекторов на основе преобразователя;
Являются ли локальные функции всем, что вам нужно для междоменного визуального распознавания мест? Всесторонняя оценка производительности моделей визуального распознавания в сложных условиях резкого изменения освещения и окклюзии объектов;
Обнаружение дипфейков с помощью глубокого обучения: сверточные нейронные сети против трансформеров. Мы заметили, что модели CNN показали лучшие результаты в одних и тех же оценках наборов данных от обучения к тестированию, а модели Transformers показали лучшие результаты в оценках перекрестных наборов данных. Всестороннее сравнение Transformers и CNN показывает, что CNN лучше подходят для одних и тех же наборов данных от обучения к тестированию, но Transformers лучше подходят для обобщения;
Вывод естественного языка с учетом неопределенности со стохастическим усреднением веса. Стохастическое усреднение по Гауссу (SWAG) улучшает качество задач понимания естественного языка (NLU);
HyperTab: гиперсетевой подход к глубокому обучению на небольших наборах табличных данных. Ансамбльный метод обучения объединения нейронных сетей в случайный лес превосходит автономные НС на наборах табличных данных;
Быстрое обучение для рекомендации новостей. Хорошо продуманные подсказки для LLM могут заменить системы рекомендаций;
Автоматический градиентный спуск: глубокое обучение без гиперпараметров. Реализация оптимизатора с настройкой автомобильных параметров.

Спасибо, что присоединились к нам на этой неделе в дайджесте компьютерных наук arXiv. Мы надеемся, что представленные здесь идеи и тенденции помогут вам понять последние разработки в области искусственного интеллекта.

В Explanatory AI мы стремимся сделать знания в области ИИ доступными для всех. Мы верим, что, делясь знаниями и идеями, мы можем создать лучшее будущее для всех. Мы с нетерпением ждем возможности предоставить вам более информативный и доступный контент.

Если у вас есть какие-либо отзывы или предложения, пожалуйста, свяжитесь с нами. И не забудьте подписаться на наш Твиттер, чтобы получать ежедневные обновления и идеи из мира ИИ. Спасибо за чтение, и увидимся на следующей неделе!