1. Декомпозиция скрытых состояний модели авторегрессионного языка для анализа прогнозов модели (arXiv) на основе токенов

Автор: Byung-Doh Oh, William Schuler.

Аннотация: Хотя в последнее время наблюдается большой интерес к изучению того, почему модели больших языков на основе Transformer делают предсказания именно так, как они это делают, сложные вычисления, выполняемые на каждом уровне, сделали их поведение несколько непрозрачным. Чтобы смягчить эту непрозрачность, в этой работе представлена ​​линейная декомпозиция конечных скрытых состояний авторегрессионных языковых моделей на основе каждого начального входного токена, что является точным практически для всех современных архитектур Transformer. Это разложение позволяет определить распределения вероятностей, которые уменьшают вклад конкретных входных токенов, которые можно использовать для анализа их влияния на вероятности модели по последовательности предстоящих слов только с одним прямым проходом от модели. Используя изменение вероятности следующего слова в качестве меры важности, эта работа сначала исследует, какие слова контекста вносят наибольший вклад в предсказания языковой модели. Регрессионные эксперименты показывают, что языковые модели на основе Transformer полагаются в первую очередь на словосочетания, за которыми следуют лингвистические факторы, такие как синтаксические зависимости и кореферентные отношения при прогнозировании следующего слова. Кроме того, анализ с использованием этих показателей для прогнозирования синтаксических зависимостей и корреферентных диапазонов упоминаний показывает, что коллокационная ассоциация и повторения одного и того же токена в значительной степени объясняют прогнозы языковых моделей для этих задач.

2. Запоминание навсегда: шифрование с авторегрессивными языковыми моделями (arXiv)

Автор: Сэмюэл Стивенс, Ю Су.

Аннотация: Перепараметрированные модели нейронного языка (LM) могут запоминать и повторять длинные последовательности обучающих данных. Хотя такое запоминание обычно связано с нежелательными свойствами, такими как переобучение и утечка информации, в нашей работе запоминание рассматривается как неизведанная способность LM. Мы предлагаем первый алгоритм симметричного шифрования с авторегрессионными языковыми моделями (SELM). Мы показываем, что авторегрессионные LM могут кодировать произвольные данные в компактный вектор с действительным знаком (т. е. шифрование), а затем без потерь декодировать вектор в исходное сообщение (т. е. дешифрование) с помощью случайной оптимизации подпространства и жадного декодирования. Хотя SELM не поддается обычному криптоанализу, мы исследуем его безопасность с помощью нового эмпирического варианта классической игры IND-CPA (неразличимость при атаке с выбранным открытым текстом). Наш код и наборы данных доступны по адресу https://github.com/OSU-NLP-Group/SELM.