ML Arxiv Haul #12

Мы видим кучу препринтов НЛП перед датами конференции или в конце семестра, так что я уже готов к еще 20 статьям в этом ML Arxiv Haul. Может быть, мне следует превратить их в ежемесячный информационный бюллетень по электронной почте?

Контрастная платформа для генерации нейронного текста
Генерация текста имеет большое значение для многих приложений обработки естественного языка. Однако на основе максимизации…arxiv.org

В предыдущем примере я рассматривал контрастное декодирование с использованием модели меньшего размера, а здесь совершенно другой процесс под названием контрастный поиск. Contrastive также есть в двух других статьях в этом посте. Сейчас так жарко. У HuggingFace был блог об этой статье на прошлой неделе, поэтому я добавил ее в свой проект будущих декодеров. Кажется, что процесс начинается во время обучения модели, когда токены перемещаются, чтобы занять больше векторного пространства. Сравнительный метод здесь выбирает токен из наиболее вероятных токенов, но включает штраф в зависимости от того, насколько он близок к предыдущему токену (т. е. самый высокий штраф, если повторяется один и тот же токен). Интересно, как это справится с ситуациями, когда вы намеренно повторяете слово или токен (я не знал, что это произойдет, как летает муха — кстати, я сейчас слушаю выпуск подкаста Grammar Girl о двойных словах).

Они используют LCCC в качестве эталона для генерации текста на китайском языке. Я никогда не видел этого раньше, и это обнадеживает, когда я вижу исследования декодера за пределами английского языка. Здесь они обнаружили значительное предпочтение человека по сравнению с другими методами декодирования, но английские модели нуждались в улучшении обоих компонентов своего алгоритма (SimCTG).
Один из недостатков заключается в том, что хотя метод декодирования предположительно работает с другими моделями, все их примеры (я думаю) включают сначала шаг тонкой настройки.

Сложнее ли объяснить сложные примеры? Исследование с объяснениями, сгенерированными человеком и моделями
Недавняя работа над объяснимым НЛП показала, что подсказки с несколькими шагами могут позволить большим предварительно обученным языковым моделям (LLM)…arxiv.org

В исследовании рассматриваются предложения Винограда (Анжела пыталась успокоить нервы Кэрри в аэропорту, потому что _ боялась летать на самолетах) и сравниваются написанные человеком объяснения с объяснениями, написанными GPT-3. Я ожидал, что они что-то сделают с объяснениями, но само объяснение точное. Они использовали инструмент «Карты данных», выпущенный в 2020 году, чтобы выбрать, какие примеры являются наиболее сложными для модели, и объяснения из GPT-3 по-прежнему высокого качества.

BLOOM: многоязычная модель открытого доступа с параметрами 176B
Было показано, что большие языковые модели (LLM) способны выполнять новые задачи на основе нескольких демонстраций или естественных …arxiv.org

BigScience и HuggingFace опубликовали ряд статей о работе над совместной многоязычной моделью BLOOM — наборе данных ROOTS, выбросах углерода и версии модели Instruct (BLOOMZ).
Моя модель на хинди-BERT выглядит крошечной. здесь (!), когда его токенизатор сравнивается с BLOOM.

CONDAQA: набор данных для сравнительного понимания прочитанного для рассуждений об отрицании
Всю мощь человеческого языка нельзя реализовать без отрицания. Во всех человеческих языках есть некоторые…arxiv.org

Исследователи нанимают специалистов для сбора предложений из Википедии, содержащих более сложные отрицания. Краудворкеры создают вариации предложения. Затем задача контроля качества интерпретирует, что произошло, а что нет, исходя из человеческого понимания.
Наилучшие результаты дает UnifiedQA (я не знаком с этим, он основан на T5) и (когда разрешено) InstructGPT с цепочкой размышлений.

Петли обратной связи с данными: усиление погрешностей наборов данных на основе моделей
Наборы данных, извлеченные из Интернета, сыграли решающую роль в успехе крупномасштабного машинного обучения. Тем не менее, этот самый…arxiv.org

Это зарождающийся страх в стране этики ИИ, к которому я все еще немного скептически отношусь. По сути, если ИИ создают значительный процент текста и изображений в Интернете, это создает цикл, в котором созданный ими контент влияет на будущие модели и передает предвзятость. Есть несколько интересных исследований о том, как это работает и что можно сделать, чтобы генерация на основе выборки с меньшей вероятностью передала предубеждения.

Создают ли пользователи более небезопасный код с помощью ИИ-помощников?
Мы проводим первое крупномасштабное исследование пользователей, изучающее, как пользователи взаимодействуют с ИИ-помощником для решения различных… em>arxiv.org

Новое исследование из Стэнфорда на GitHub Copilot. Когда учащимся давали несколько задач по написанию сценариев шифрования и Copilot, они, скорее всего, создавали уязвимый код, и тем больше вероятность создания этих уязвимостей, чем больше они принимали предложения и высоко оценивали его результаты. Недостаточно использовать инструменты статического анализа, перечисленные в документе, потому что ошибки безопасности часто являются «концептуальными».

Легкодоступное преобразование текста в изображение усиливает демографические стереотипы в больших масштабах
Модели машинного обучения теперь могут преобразовывать написанные пользователем текстовые описания в натуралистичные изображения. Эти модели…arxiv.org

Самый полный внешний аудит создания образов DALL-E, который я когда-либо видел. Авторы находят несколько стереотипов в карьере, эмоциях, ролях, семьях и т. д. Сложно подтолкнуть модель к генерации каких-то сценариев.

Оценка устойчивости к состязаниям адаптивной защиты во время тестирования
Адаптивная защита, которая оптимизируется во время тестирования, обещает повысить устойчивость к состязаниям. Мы классифицируем такие адаптивные…arxiv.org==

Авторы одобряют инструмент надежности модели (AutoAttack), но вместо этого решают сосредоточиться на показателях надежности, которые возникают после обучения модели (другими словами: во время тестирования). Я не знаком с этими методами, так что это хороший обзор. Я полагаю, что они говорят, что инструменты изменяют вес модели или входные данные перед тестом или между партиями (?). В любом случае, они пришли к выводу, что эта категория инструментов времени тестирования неутешительна и требует больших вычислительных ресурсов.

Согласование стратегий распознавания объектов глубоких нейронных сетей с людьми
Многие успехи глубоких нейронных сетей (ГНС) за последнее десятилетие в значительной степени были обусловлены масштабом вычислений…arxiv.org

Презентация этой статьи в Твиттере заключалась в том, что по мере того, как модель становится более точной, ее техника все меньше соответствует тому, как люди рассматривают изображения.

Когда я просматривал это, я задавался вопросом, откуда берутся карты человеческого внимания? Они взяты из набора данных ClickMe, в котором участники выбирают важные части изображения с помощью мыши, «рисуя полупрозрачные пузырьки на экране». Как вы могли подозревать, создание отчетов на основе нажатия и перетаскивания — это не то же самое, что отслеживание взгляда или показ части изображения пользователю. Два примера, которые я бы выделил, — это змея (где люди выделили ближнюю, переднюю часть змеи) и мяч (где модели выделяют игрока). Кажется, что люди выделяют минимальную область, чтобы распознать объект.

Является ли обучение с подкреплением (не) для обработки естественного языка?: контрольные показатели, базовые показатели и…
Мы решаем проблему согласования предварительно обученных больших языковых моделей (LM) с человеческими предпочтения. Если мы просматриваем текст…arxiv.org

Существует значительный интерес к NLP для приведения языковых моделей в соответствие с человеческими намерениями, как, например, в InstructGPT, моделях кода (которые легче протестировать, запустив их код) и т. д. Крупные исследовательские лаборатории делают это с помощью обучения с подкреплением, а Allen AI позволяет нам в процессе здесь. Репозиторий этой статьи — RL4LMs, что более оптимистично, чем следует из названия статьи. Наконец, они представили новый алгоритм RL и тест.
К сожалению, мне не удалось запустить их на графическом процессоре CoLab :( может быть, в следующий раз.

Нейронным сетям трудно научиться играть в жизнь
Усилия по улучшению обучаемости нейронных сетей были сосредоточены в основном на роли методов оптимизации…arxiv .org

Казалось бы, нейронные сети могут продумать основные правила игры жизни Конвея и предсказать изображение на несколько раундов вперед. Исследователи, казалось, были заинтересованы в обсуждении феномена «лотерейного билета», но вместо этого были разочарованы общей производительностью нейронных сетей.

Большие языковые модели изо всех сил пытаются усвоить длиннохвостые знания
Интернет содержит множество знаний — от дней рождения исторических личностей до руководств по кодированию…arxiv.org

Есть скрипты для поиска фактов, которые знают нейронные модели, редактирования фактов в модели и т.д. и т.п., но это возвращает нас к обучающим данным. Исследователи обнаружили, что способность вспомнить факт связана с тем, сколько раз он увидит этот факт во время предварительной тренировки. В исследовании используется TriviaQA для оценки способностей. Я бы хотел, чтобы они рассмотрели категории фактов, которые сложны для моделей, например, они могут выбрать известный город (Рио) для вопроса «какая столица Бразилии?».

Модели мутаций: научиться генерировать уровни, имитируя эволюцию
Процедурная генерация контента на основе поиска (PCG) — это хорошо известный метод генерации уровней в играх. Его ключ…arxiv.org

Меня интересуют алгоритмы генерации игр, если их можно применить к изучению языка. Здесь у них есть генератор игровых уровней, который работает через эволюцию, а затем пытаются обучить нейронную сеть имитировать это эволюционное поведение.

NusaX: многоязычный параллельный набор данных о настроениях для 10 индонезийских местных языков
Обработка естественного языка (NLP) оказывает значительное влияние на общество с помощью таких технологий, как машинный перевод и… arxiv.org

В дополнение к предыдущему сотрудничеству по эталонным тестам языка Bahasa Indonesia, в этом документе объявляются данные анализа тональности для 10 других индонезийских языков. Я заинтригован организацией сообщества и сотрудничеством, видимым для Индонезии, а также этой победой в сохранении языков меньшинств.
Из разговоров в Твиттере я узнал, что есть две модели, которые вышли примерно в одно и то же время и называются «IndoBERT».
Я надеюсь, что это может быть перенесено в какое-то региональное сотрудничество по ИИ (например, с Бахаса Мелаю).

Внедрение машинного обучения в эксплуатацию: интервью
Организации полагаются на инженеров по машинному обучению (MLE) для внедрения машинного обучения, т. е. для развертывания и обслуживания конвейеров машинного обучения в…arxiv. орг

Интервью инженеров и менеджеров по машинному обучению об их работе. Есть интерес к ускорению проверки/итерации и отслеживанию версий моделей. Включает в себя список антишаблонов. Я думал, что будет больше обсуждений работы по разработке функций, но есть только один момент, касающийся замены инструментов на SparkSQL.

Исправление моделей с открытым словарем путем интерполяции весов
Модели с открытым словарем, такие как CLIP, обеспечивают высокую точность во многих задачах классификации изображений. Однако есть еще…arxiv.org

Исследователи сравнивают CLIP и CLIP, настроенные на новую задачу изображения или синтетические данные, и используют свой код PAINT для улучшения модели на основе этого. Им удается сделать это, не нарушая точность предыдущих задач. Они описывают это как «заплатку» модели, когда это больше похоже на «точную настройку, а затем усиление»?

GitHub — devglobalpartners/ramp-code: Репозиторий с открытым исходным кодом для рампы (реплицируемый ИИ для…
Наша команда стремится передать контроль над цепочкой создания ценности данных гуманитарным организациям. Воспроизводимый ИИ для микропланирования…github.com

Гуманитарная команда OpenStreetMap (HOT) объявила, что они почти готовы выпустить картографический инструмент AI (названный fAIr). Это работает как конкурент Meta RapiD. Он был выпущен в 2019 году и сейчас находится в предварительном просмотре версии 2.0 (основные изменения включают в себя включение слоев от Esri и Microsoft и отрисовку карты в элементе холста вместо SVG).

Мне немного неловко, что я не слышал о проекте HOT FAIR до сегодняшнего дня. Этот проект, похоже, выиграл от рампы, которую репо показывает, отслеживая здания в нескольких странах.

КК в реальном времени: каков ответ прямо сейчас?
Мы представляем КК в реальном времени, платформу динамического ответа на вопросы (КК), которая объявляет вопросы и оценивает системы на…arxiv .org

Исследователи сохраняют меняющиеся ответы на ряд вопросов (сколько хоум-ранов было сделано ‹игроком›) и оценивают модели, которые являются закрытыми книгами или используют стандартизированный процесс поиска. По состоянию на 12 ноября лучшие результаты дает GPT-3 и система пользовательского поиска.
Интересно, что каждую неделю они даже выпускают новый набор вопросов на основе газетных викторин: github.com/realtimeqa/ realtimeqa_public/дерево/основной/последний

Надежное обучение предпочтениям для рассказывания историй с помощью обучения с контрастным подкреплением
Контролируемое автоматическое создание историй направлено на создание историй на естественном языке, удовлетворяющих ограничениям естественного…arxiv.org

В прошлом году было показано, что статья о контрастном парном написании и рецензировании (CARP) оценивает, понравится ли людям история. В этом документе GPT-2 тонко настраивается для создания новых историй на основе оценки предпочтений CARP. Это, наконец, объясняет, почему команда разработчиков текстов и кода Stable Diffusion называется Carper AI! В документе представлена быстрая настройка (CoOp) и обучение с подкреплением для улучшения историй.

SEAL: интерактивный инструмент для систематического анализа ошибок и маркировки
С появлением Transformers большие языковые модели (LLM) насытили известные тесты НЛП и таблицы лидеров…arxiv.org

Я думаю, что здесь происходит то, что они выбирают примеры набора текстовых данных с наибольшими потерями, используют кластеризацию k-средних, а затем представляют эти кластеры вместе, чтобы в идеале вы могли определить тенденцию. Они изучают несколько примеров, где GPT-3 описывает кластеры. Довольно странно для них иметь модель ALBERT для процесса и GPT-3 для объяснения ошибки.

Быстрое изучение моделей больших языков в понимании естественного языка: обзор
Модели больших языков (LLM) достигли самых современных результатов в ряде исследований естественного языка. понимание…arxiv.org

Исследователи НЛП хотят избегать моделей, обнаруживающих «ярлыки» в задачах, вместо более разнообразного и надежного набора сигналов. В этой статье они рассматривают объяснимость и другие метрики, чтобы обнаружить сокращение процесса. Учитывая, что их примером устойчивости является восприимчивость к несвязанной информации в тексте/резюме, проще всего исправить это состязательное обучение. Они упоминают несколько других методов, таких как «минимизация потерь по наихудшей группе». Это обзорный документ, поэтому вам придется отслеживать репозитории для каждого метода.

ML Arxiv Haul #12

Вопросы по теме