Мы видим кучу препринтов НЛП перед датами конференции или в конце семестра, так что я уже готов к еще 20 статьям в этом ML Arxiv Haul. Может быть, мне следует превратить их в ежемесячный информационный бюллетень по электронной почте?



В предыдущем примере я рассматривал контрастное декодирование с использованием модели меньшего размера, а здесь совершенно другой процесс под названием контрастный поиск. Contrastive также есть в двух других статьях в этом посте. Сейчас так жарко. У HuggingFace был блог об этой статье на прошлой неделе, поэтому я добавил ее в свой проект будущих декодеров. Кажется, что процесс начинается во время обучения модели, когда токены перемещаются, чтобы занять больше векторного пространства. Сравнительный метод здесь выбирает токен из наиболее вероятных токенов, но включает штраф в зависимости от того, насколько он близок к предыдущему токену (т. е. самый высокий штраф, если повторяется один и тот же токен). Интересно, как это справится с ситуациями, когда вы намеренно повторяете слово или токен (я не знал, что это произойдет, как летает муха — кстати, я сейчас слушаю выпуск подкаста Grammar Girl о двойных словах).

Они используют LCCC в качестве эталона для генерации текста на китайском языке. Я никогда не видел этого раньше, и это обнадеживает, когда я вижу исследования декодера за пределами английского языка. Здесь они обнаружили значительное предпочтение человека по сравнению с другими методами декодирования, но английские модели нуждались в улучшении обоих компонентов своего алгоритма (SimCTG).
Один из недостатков заключается в том, что хотя метод декодирования предположительно работает с другими моделями, все их примеры (я думаю) включают сначала шаг тонкой настройки.



В исследовании рассматриваются предложения Винограда (Анжела пыталась успокоить нервы Кэрри в аэропорту, потому что _ боялась летать на самолетах) и сравниваются написанные человеком объяснения с объяснениями, написанными GPT-3. Я ожидал, что они что-то сделают с объяснениями, но само объяснение точное. Они использовали инструмент «Карты данных», выпущенный в 2020 году, чтобы выбрать, какие примеры являются наиболее сложными для модели, и объяснения из GPT-3 по-прежнему высокого качества.



BigScience и HuggingFace опубликовали ряд статей о работе над совместной многоязычной моделью BLOOM — наборе данных ROOTS, выбросах углерода и версии модели Instruct (BLOOMZ).
Моя модель на хинди-BERT выглядит крошечной. здесь (!), когда его токенизатор сравнивается с BLOOM.



Исследователи нанимают специалистов для сбора предложений из Википедии, содержащих более сложные отрицания. Краудворкеры создают вариации предложения. Затем задача контроля качества интерпретирует, что произошло, а что нет, исходя из человеческого понимания.
Наилучшие результаты дает UnifiedQA (я не знаком с этим, он основан на T5) и (когда разрешено) InstructGPT с цепочкой размышлений.



Это зарождающийся страх в стране этики ИИ, к которому я все еще немного скептически отношусь. По сути, если ИИ создают значительный процент текста и изображений в Интернете, это создает цикл, в котором созданный ими контент влияет на будущие модели и передает предвзятость. Есть несколько интересных исследований о том, как это работает и что можно сделать, чтобы генерация на основе выборки с меньшей вероятностью передала предубеждения.



Новое исследование из Стэнфорда на GitHub Copilot. Когда учащимся давали несколько задач по написанию сценариев шифрования и Copilot, они, скорее всего, создавали уязвимый код, и тем больше вероятность создания этих уязвимостей, чем больше они принимали предложения и высоко оценивали его результаты. Недостаточно использовать инструменты статического анализа, перечисленные в документе, потому что ошибки безопасности часто являются «концептуальными».



Самый полный внешний аудит создания образов DALL-E, который я когда-либо видел. Авторы находят несколько стереотипов в карьере, эмоциях, ролях, семьях и т. д. Сложно подтолкнуть модель к генерации каких-то сценариев.



Авторы одобряют инструмент надежности модели (AutoAttack), но вместо этого решают сосредоточиться на показателях надежности, которые возникают после обучения модели (другими словами: во время тестирования). Я не знаком с этими методами, так что это хороший обзор. Я полагаю, что они говорят, что инструменты изменяют вес модели или входные данные перед тестом или между партиями (?). В любом случае, они пришли к выводу, что эта категория инструментов времени тестирования неутешительна и требует больших вычислительных ресурсов.



Презентация этой статьи в Твиттере заключалась в том, что по мере того, как модель становится более точной, ее техника все меньше соответствует тому, как люди рассматривают изображения.

Когда я просматривал это, я задавался вопросом, откуда берутся карты человеческого внимания? Они взяты из набора данных ClickMe, в котором участники выбирают важные части изображения с помощью мыши, «рисуя полупрозрачные пузырьки на экране». Как вы могли подозревать, создание отчетов на основе нажатия и перетаскивания — это не то же самое, что отслеживание взгляда или показ части изображения пользователю. Два примера, которые я бы выделил, — это змея (где люди выделили ближнюю, переднюю часть змеи) и мяч (где модели выделяют игрока). Кажется, что люди выделяют минимальную область, чтобы распознать объект.



Существует значительный интерес к NLP для приведения языковых моделей в соответствие с человеческими намерениями, как, например, в InstructGPT, моделях кода (которые легче протестировать, запустив их код) и т. д. Крупные исследовательские лаборатории делают это с помощью обучения с подкреплением, а Allen AI позволяет нам в процессе здесь. Репозиторий этой статьи — RL4LMs, что более оптимистично, чем следует из названия статьи. Наконец, они представили новый алгоритм RL и тест.
К сожалению, мне не удалось запустить их на графическом процессоре CoLab :( может быть, в следующий раз.



Казалось бы, нейронные сети могут продумать основные правила игры жизни Конвея и предсказать изображение на несколько раундов вперед. Исследователи, казалось, были заинтересованы в обсуждении феномена «лотерейного билета», но вместо этого были разочарованы общей производительностью нейронных сетей.



Есть скрипты для поиска фактов, которые знают нейронные модели, редактирования фактов в модели и т.д. и т.п., но это возвращает нас к обучающим данным. Исследователи обнаружили, что способность вспомнить факт связана с тем, сколько раз он увидит этот факт во время предварительной тренировки. В исследовании используется TriviaQA для оценки способностей. Я бы хотел, чтобы они рассмотрели категории фактов, которые сложны для моделей, например, они могут выбрать известный город (Рио) для вопроса «какая столица Бразилии?».



Меня интересуют алгоритмы генерации игр, если их можно применить к изучению языка. Здесь у них есть генератор игровых уровней, который работает через эволюцию, а затем пытаются обучить нейронную сеть имитировать это эволюционное поведение.



В дополнение к предыдущему сотрудничеству по эталонным тестам языка Bahasa Indonesia, в этом документе объявляются данные анализа тональности для 10 других индонезийских языков. Я заинтригован организацией сообщества и сотрудничеством, видимым для Индонезии, а также этой победой в сохранении языков меньшинств.
Из разговоров в Твиттере я узнал, что есть две модели, которые вышли примерно в одно и то же время и называются «IndoBERT».
Я надеюсь, что это может быть перенесено в какое-то региональное сотрудничество по ИИ (например, с Бахаса Мелаю).



Интервью инженеров и менеджеров по машинному обучению об их работе. Есть интерес к ускорению проверки/итерации и отслеживанию версий моделей. Включает в себя список антишаблонов. Я думал, что будет больше обсуждений работы по разработке функций, но есть только один момент, касающийся замены инструментов на SparkSQL.



Исследователи сравнивают CLIP и CLIP, настроенные на новую задачу изображения или синтетические данные, и используют свой код PAINT для улучшения модели на основе этого. Им удается сделать это, не нарушая точность предыдущих задач. Они описывают это как «заплатку» модели, когда это больше похоже на «точную настройку, а затем усиление»?



Гуманитарная команда OpenStreetMap (HOT) объявила, что они почти готовы выпустить картографический инструмент AI (названный fAIr). Это работает как конкурент Meta RapiD. Он был выпущен в 2019 году и сейчас находится в предварительном просмотре версии 2.0 (основные изменения включают в себя включение слоев от Esri и Microsoft и отрисовку карты в элементе холста вместо SVG).

Мне немного неловко, что я не слышал о проекте HOT FAIR до сегодняшнего дня. Этот проект, похоже, выиграл от рампы, которую репо показывает, отслеживая здания в нескольких странах.



Исследователи сохраняют меняющиеся ответы на ряд вопросов (сколько хоум-ранов было сделано ‹игроком›) и оценивают модели, которые являются закрытыми книгами или используют стандартизированный процесс поиска. По состоянию на 12 ноября лучшие результаты дает GPT-3 и система пользовательского поиска.
Интересно, что каждую неделю они даже выпускают новый набор вопросов на основе газетных викторин: github.com/realtimeqa/ realtimeqa_public/дерево/основной/последний



В прошлом году было показано, что статья о контрастном парном написании и рецензировании (CARP) оценивает, понравится ли людям история. В этом документе GPT-2 тонко настраивается для создания новых историй на основе оценки предпочтений CARP. Это, наконец, объясняет, почему команда разработчиков текстов и кода Stable Diffusion называется Carper AI! В документе представлена ​​быстрая настройка (CoOp) и обучение с подкреплением для улучшения историй.



Я думаю, что здесь происходит то, что они выбирают примеры набора текстовых данных с наибольшими потерями, используют кластеризацию k-средних, а затем представляют эти кластеры вместе, чтобы в идеале вы могли определить тенденцию. Они изучают несколько примеров, где GPT-3 описывает кластеры. Довольно странно для них иметь модель ALBERT для процесса и GPT-3 для объяснения ошибки.



Исследователи НЛП хотят избегать моделей, обнаруживающих «ярлыки» в задачах, вместо более разнообразного и надежного набора сигналов. В этой статье они рассматривают объяснимость и другие метрики, чтобы обнаружить сокращение процесса. Учитывая, что их примером устойчивости является восприимчивость к несвязанной информации в тексте/резюме, проще всего исправить это состязательное обучение. Они упоминают несколько других методов, таких как «минимизация потерь по наихудшей группе». Это обзорный документ, поэтому вам придется отслеживать репозитории для каждого метода.