Приветствую, Среднее сообщество,

В этом выпуске представлены публикации, опубликованные на arXiv с 1 по 7 июля, и представлены идеи и анализ наиболее значимых исследований и тенденций.

Давайте погрузимся!

Razor SNN: эффективная импульсная нейронная сеть с временными вложениями

Разреженный вывод SNN по временным данным посредством иерархического исключения бесплодных кадров.

Потоки событий, генерируемые датчиками динамического зрения (DVS), разрежены и неравномерны в пространственной области, но все еще плотны и избыточны во временной области. Хотя импульсная нейронная сеть (SNN), нейроморфная модель, управляемая событиями, может извлекать пространственно-временные характеристики из потоков событий, она неэффективна и неэффективна. Основываясь на вышеизложенном, мы предлагаем платформу пиковой разреженности событий, получившую название Razor SNN, которая постепенно отсекает бессмысленные кадры событий.

Взломанный: почему обучение технике безопасности LLM терпит неудачу?

Обучение технике безопасности может снизить вероятность нежелательного поведения LLM при нормальном использовании, но существующие методы неэффективны против враждебных субъектов.

Большие языковые модели, обученные безопасности и безвредности, по-прежнему подвержены неправомерному использованию со стороны злоумышленников, о чем свидетельствует распространенность атак «взлома из тюрьмы» на ранние версии ChatGPT, которые вызывают нежелательное поведение. Выходя за пределы неузнаваемости проблемы, мы исследуем, почему такие атаки успешны и как они могут быть созданы. Мы выдвигаем гипотезу о двух режимах отказа обучения технике безопасности: конкурирующие цели и несовпадающие обобщения. Конкурирующие цели возникают, когда возможности модели и цели безопасности противоречат друг другу, в то время как несовпадающее обобщение возникает, когда обучение безопасности не может быть обобщено на область, для которой существуют возможности. Мы используем эти режимы сбоев для разработки дизайна джейлбрейка, а затем оцениваем современные модели, включая OpenAI GPT-4 и Anthropic Claude v1.3, против существующих и недавно разработанных атак.

LongNet: масштабирование трансформаторов до 1 000 000 000 токенов

Масштабирующие преобразователи для обработки бесконечных последовательностей за счет расширения в головах внимания.

Масштабирование длины последовательности стало критическим требованием в эпоху больших языковых моделей. Однако существующие методы борются либо со сложностью вычислений, либо с выразительностью модели, что ограничивает максимальную длину последовательности. В этой работе мы представляем LONGNET, вариант Transformer, который может масштабировать длину последовательности до более чем 1 миллиарда токенов без ущерба для производительности более коротких последовательностей. В частности, мы предлагаем расширенное внимание, которое экспоненциально расширяет поле внимания по мере увеличения расстояния. LONGNET имеет существенные преимущества: 1) имеет линейную сложность вычислений и логарифмическую зависимость между токенами; 2) его можно использовать в качестве распределенного тренажера для очень длинных последовательностей; 3) его расширенное внимание является заменой стандартному вниманию, которое можно легко интегрировать с существующей оптимизацией на основе Transformer. Результаты экспериментов показывают, что LONGNET обеспечивает высокую производительность как при моделировании длинных последовательностей, так и при общеязыковых задачах.

Затерянный посередине: как языковые модели используют длинные контексты

LLM имеют тенденцию игнорировать среднюю часть контекста в случае длинных входных последовательностей.

В то время как последние языковые модели имеют возможность принимать длинные контексты в качестве входных данных, относительно мало известно о том, насколько хорошо языковые модели используют более длинный контекст. Мы анализируем производительность языковой модели в двух задачах, которые требуют определения релевантной информации в их входных контекстах: ответы на вопросы с несколькими документами и поиск по ключу-значению. Мы обнаружили, что производительность часто бывает самой высокой, когда релевантная информация появляется в начале или в конце входного контекста, и значительно ухудшается, когда модели должны получать доступ к релевантной информации в середине длинных контекстов.

Больше читать

Спасибо, что присоединились к нам на этой неделе в дайджесте компьютерных наук arXiv. Мы надеемся, что представленные здесь идеи и тенденции помогут вам понять последние разработки в области искусственного интеллекта.

Если у вас есть какие-либо отзывы или предложения, пожалуйста, свяжитесь с нами.

Хороших выходных и увидимся в следующую пятницу. Пока.