Еженедельный обзор arXiv #15

Приветствую, Среднее сообщество,

В этом выпуске представлены публикации, опубликованные на arXiv с 1 по 7 июля, и представлены идеи и анализ наиболее значимых исследований и тенденций.

Давайте погрузимся!

Razor SNN: эффективная импульсная нейронная сеть с временными вложениями

Разреженный вывод SNN по временным данным посредством иерархического исключения бесплодных кадров.

Потоки событий, генерируемые датчиками динамического зрения (DVS), разрежены и неравномерны в пространственной области, но все еще плотны и избыточны во временной области. Хотя импульсная нейронная сеть (SNN), нейроморфная модель, управляемая событиями, может извлекать пространственно-временные характеристики из потоков событий, она неэффективна и неэффективна. Основываясь на вышеизложенном, мы предлагаем платформу пиковой разреженности событий, получившую название Razor SNN, которая постепенно отсекает бессмысленные кадры событий.

Взломанный: почему обучение технике безопасности LLM терпит неудачу?

Обучение технике безопасности может снизить вероятность нежелательного поведения LLM при нормальном использовании, но существующие методы неэффективны против враждебных субъектов.

Большие языковые модели, обученные безопасности и безвредности, по-прежнему подвержены неправомерному использованию со стороны злоумышленников, о чем свидетельствует распространенность атак «взлома из тюрьмы» на ранние версии ChatGPT, которые вызывают нежелательное поведение. Выходя за пределы неузнаваемости проблемы, мы исследуем, почему такие атаки успешны и как они могут быть созданы. Мы выдвигаем гипотезу о двух режимах отказа обучения технике безопасности: конкурирующие цели и несовпадающие обобщения. Конкурирующие цели возникают, когда возможности модели и цели безопасности противоречат друг другу, в то время как несовпадающее обобщение возникает, когда обучение безопасности не может быть обобщено на область, для которой существуют возможности. Мы используем эти режимы сбоев для разработки дизайна джейлбрейка, а затем оцениваем современные модели, включая OpenAI GPT-4 и Anthropic Claude v1.3, против существующих и недавно разработанных атак.

LongNet: масштабирование трансформаторов до 1 000 000 000 токенов

Масштабирующие преобразователи для обработки бесконечных последовательностей за счет расширения в головах внимания.

Масштабирование длины последовательности стало критическим требованием в эпоху больших языковых моделей. Однако существующие методы борются либо со сложностью вычислений, либо с выразительностью модели, что ограничивает максимальную длину последовательности. В этой работе мы представляем LONGNET, вариант Transformer, который может масштабировать длину последовательности до более чем 1 миллиарда токенов без ущерба для производительности более коротких последовательностей. В частности, мы предлагаем расширенное внимание, которое экспоненциально расширяет поле внимания по мере увеличения расстояния. LONGNET имеет существенные преимущества: 1) имеет линейную сложность вычислений и логарифмическую зависимость между токенами; 2) его можно использовать в качестве распределенного тренажера для очень длинных последовательностей; 3) его расширенное внимание является заменой стандартному вниманию, которое можно легко интегрировать с существующей оптимизацией на основе Transformer. Результаты экспериментов показывают, что LONGNET обеспечивает высокую производительность как при моделировании длинных последовательностей, так и при общеязыковых задачах.

Затерянный посередине: как языковые модели используют длинные контексты

LLM имеют тенденцию игнорировать среднюю часть контекста в случае длинных входных последовательностей.

В то время как последние языковые модели имеют возможность принимать длинные контексты в качестве входных данных, относительно мало известно о том, насколько хорошо языковые модели используют более длинный контекст. Мы анализируем производительность языковой модели в двух задачах, которые требуют определения релевантной информации в их входных контекстах: ответы на вопросы с несколькими документами и поиск по ключу-значению. Мы обнаружили, что производительность часто бывает самой высокой, когда релевантная информация появляется в начале или в конце входного контекста, и значительно ухудшается, когда модели должны получать доступ к релевантной информации в середине длинных контекстов.

Больше читать

Whisper-AT: шумоустойчивые автоматические распознаватели речи также являются надежными теггерами общих аудиособытий. Распознаватель речи не инвариантен к шуму, а скорее способен распознавать тип шума и обусловливать тип шума;
Биомедицинские языковые модели устойчивы к субоптимальной токенизации. Способ токенизации текста оказывает незначительное влияние на производительность биомедицинских языковых моделей;
Предсказание красоты, симпатии и эстетического качества: сравнительный анализ баз данных изображений для исследования визуальной эстетики». Всесторонний обзор двенадцати наборов данных изображений, которые включают эстетические рейтинги и исследование важности различных статистических свойств изображения для прогнозирования эстетического рейтинга.

Спасибо, что присоединились к нам на этой неделе в дайджесте компьютерных наук arXiv. Мы надеемся, что представленные здесь идеи и тенденции помогут вам понять последние разработки в области искусственного интеллекта.

Если у вас есть какие-либо отзывы или предложения, пожалуйста, свяжитесь с нами.

Хороших выходных и увидимся в следующую пятницу. Пока.