Приветствую, Среднее сообщество,

В этом выпуске представлены публикации, опубликованные на arXiv с 20 по 26 мая, и представлены идеи и анализ наиболее значимых исследований и тенденций.

Давайте погрузимся!

Делаем Vision Transformers действительно Shift-эквивариантными

Делаем визуальные трансформеры инвариантными к сдвигу.

Несмотря на то, что они были вдохновлены сверточно-нейронными сетями (CNN), ViT остаются чувствительными к небольшим сдвигам во входном изображении. Чтобы решить эту проблему, мы представляем новый дизайн для каждого из модулей в ViT, таких как токенизация, самостоятельный поиск, слияние патчей и позиционное кодирование. С помощью предлагаемых нами модулей мы достигаем действительно эквивалентных сдвигу ViT на четырех хорошо зарекомендовавших себя моделях, а именно Swin, SwinV2, MViTv2 и CvT, как в теории, так и на практике. Эмпирически мы проверили эти модели на классификации изображений и семантической сегментации, добившись конкурентоспособной производительности в трех разных наборах данных, сохранив при этом 100% согласованность сдвига.

Пересмотр стратегии сбрасывания токенов в рамках эффективного предварительного обучения BERT

Удаление семантически неважных токенов во время обучения может привести к повышению скорости обучения при сохранении конечного качества модели.

Отбрасывание токенов — это недавно предложенная стратегия для ускорения предварительной подготовки маскированных языковых моделей, таких как BERT, за счет пропуска вычисления подмножества входных токенов на нескольких средних уровнях. Это может эффективно сократить время обучения без значительного снижения производительности последующих задач. Однако эмпирически мы обнаружили, что удаление токенов чревато проблемой семантических потерь и не справляется с задачами, требующими семантической насыщенности. Руководствуясь этим, мы предлагаем простой, но эффективный семантически-согласованный метод обучения (SCTD) для улучшения отбрасывания токенов.

Лучшая защита — это хорошее нападение: усиление состязательности против состязательных атак

Сложная структура для защиты NN от состязательных атак посредством состязательного обучения и расширения во время логического вывода.

Многие средства защиты от враждебных атак (например, надежные классификаторы, рандомизация или очистка изображений) используют контрмеры, которые начинают работать только после того, как атака была создана. Мы используем другую точку зрения, чтобы представить A5 (Adversarial Augmentation Against Adversarial Attacks), новую структуру, включающую первую сертифицированную превентивную защиту от состязательных атак. Основная идея состоит в том, чтобы создать защитное возмущение, чтобы гарантировать, что любая атака (вплоть до заданной величины) на вход в руку потерпит неудачу. С этой целью мы используем существующие инструменты автоматического анализа возмущений для нейронных сетей. Мы изучаем условия для эффективного применения A5, анализируем важность надежности защищаемого классификатора и проверяем внешний вид усиленных изображений. Мы показываем эффективную защитную аугментацию «на лету» с помощью сети робастификаторов, которая игнорирует метку истинности, и демонстрируем преимущества совместного обучения робастификаторов и классификаторов.

RecurrentGPT: интерактивная генерация (произвольно) длинного текста

Помещение LLM в блок LSTM для генерации длинных текстов.

Контекст Transformer с фиксированным размером делает модели GPT неспособными генерировать произвольно длинный текст. В этой статье мы представляем RECURRENTGPT, языковой симулятор механизма повторения в RNN. RECURRENTGPT построен на основе большой языковой модели (LLM), такой как ChatGPT, и использует естественный язык для имитации механизма долговременной кратковременной памяти в LSTM.

CRITIC: модели больших языков могут самокорректироваться с помощью инструментально-интерактивной критики

Проверка результатов LLM с помощью внешних инструментов улучшает процесс проверки выходных данных модели.

Недавние разработки в области больших языковых моделей (LLM) впечатляют. Однако эти модели иногда демонстрируют несоответствия и проблемное поведение, например галлюцинации фактов, создание ошибочного кода или создание оскорбительного и токсичного контента. В отличие от этих моделей люди обычно используют внешние инструменты для перекрестной проверки и уточнения своего исходного контента, например, используют поисковую систему для проверки фактов или интерпретатор кода для отладки. Вдохновленные этим наблюдением, мы представляем платформу под названием CRITIC, которая позволяет LLM, которые по сути являются «черными ящиками», проверять и постепенно изменять свои собственные выходные данные способом, аналогичным человеческому взаимодействию с инструментами.

Больше читать

Спасибо, что присоединились к нам на этой неделе в дайджесте компьютерных наук arXiv. Мы надеемся, что представленные здесь идеи и тенденции помогут вам понять последние разработки в области искусственного интеллекта.

Если у вас есть какие-либо отзывы или предложения, пожалуйста, свяжитесь с нами.

Хороших выходных и увидимся в следующую пятницу. Пока.