Надежность современных систем глубокого обучения с особым акцентом на НЛП

Современные модели нейронных сетей достигли выдающейся производительности во многих задачах, от компьютерного зрения до языковой обработки. Эта высокая производительность должна означать, что они стали исключительно хороши в решении таких задач, но недавние работы показали, что «эти модели часто решают набор данных, а не задачу», поскольку они неожиданно терпят неудачу, когда им даются входные данные, которые немного отличаются от тех, которые наблюдаются во время обучения или когда входные данные возмущены (состязательные входные данные). Исследователи НЛП с готовностью признают, что, хотя мы и добились хорошего прогресса, мы далеки от машин, способных по-настоящему понимать естественный язык, т. е. мы все еще далеки от ИИ, способного понимать язык на человеческом уровне. В идеале модели не должны быть очень чувствительными к несоответствиям между предположением и реальностью. Надежность статистического обучения может быть связана с различными свойствами, например, производительность модели не должна зависеть от изменения доменов (устойчивость к сдвигу домена), из-за возмущения входных данных (состязательная устойчивость) и т. д. В этой статье мы обсудят важные темы, касающиеся надежности современных систем глубокого обучения.

Контур:

Диагностические наборы данных
Динамические тесты
Качество данных
Состязательная устойчивость
Надежность вне распределения
Другие известные работы, связанные с надежностью в НЛП

Диагностические наборы данных

Мы начнем эту статью с очень важной концепции наборов диагностических данных. Мотивация создания диагностического набора данных состоит в том, чтобы выявить слабые места моделей и точно определить их недостатки. Каждый вопрос в наборе диагностических данных должен иметь подробные аннотации, описывающие тип способностей/навыков, которые необходимы решателю для ответа на него. Было показано, что современные модели на основе нейронных сетей способны использовать артефакты набора данных и статистические погрешности, присутствующие в примерах. Например, в визуальном ответе на вопрос (получив изображение, ответьте на вопрос на естественном языке, относящийся к нему), обучающийся статистике может правильно ответить на вопрос «Что покрывает землю?» не потому, что он понимает сцену, а потому, что предвзятые наборы данных часто задают вопросы о земле, когда она «покрыта снегом».

Еще один случай, когда модели полагаются на текстуру на уровне поверхности или подсказки на фоне изображения, чтобы распознавать объекты переднего плана, даже если это кажется ненужным и в чем-то неправильным, например, «пляж — это не то, что делает чайку чайкой». Исследователи изо всех сил пытаются точно сформулировать, почему модели не должны полагаться на такие шаблоны.

Следовательно, набор диагностических данных должен иметь минимальные систематические ошибки, позволяющие объективно оценивать модели. Некоторые наборы диагностических данных искусственно создают вопросы для проверки определенного аспекта моделей. Кроме того, контрольные показатели всегда должны предоставлять подробную разбивку точности по задачам и лингвистическим/визуальным явлениям.

Примеры наборов диагностических данных:

CLEVR(VQA). Вопросы проверяют аспекты визуального мышления, такие как идентификация атрибутов, подсчет, сравнение, многократное внимание и логические операции.

Вселенная CLEVR содержит три формы объектов (куб, сфера и цилиндр), которые имеют два абсолютных размера (маленький и большой), два материала (блестящий «металл» и матовая «резина») и восемь цветов.
Объекты пространственно связаны четырьмя отношениями: «слева», «справа», «сзади» и «спереди».
Он также включает один непространственный тип отношения (отношение с одним и тем же атрибутом). Два объекта находятся в этой связи, если они имеют одинаковые значения атрибута для указанного атрибута.
Изображения и вопросы генерируются в CLEVR синтетически:
Сцена может быть представлена графом сцены, где узлы представляют собой объекты, аннотированные атрибутами, а ребра соединяют пространственно связанные объекты. Изображения CLEVR генерируются путем случайной выборки графа сцены и рендеринга его с помощью Blender.
Вопрос связан с функциональной программой, которая может быть выполнена на графе сцены изображения, что даст ответ на вопрос. Функциональные программы строятся из простых базовых функций, которые соответствуют элементарным операциям визуального мышления, таким как запрос атрибутов объекта, подсчет наборов объектов и т. д.
HANS (эвристический анализ для систем NLI) — этот набор тестов диагностирует задачу синтаксической эвристики в выводе на естественном языке (NLI). В частности, он проверяет три эвристики: лексическое перекрытие, подпоследовательность и составляющую. Примеры всех трех эвристик показаны ниже:

Другие диагностические наборы данных НЛП:
— SuperGLUE Diagnostic Dataset

Некоторые из недавних работ критикуют парадигму точной настройки обучающего набора и оценки тестового набора, взятого из того же распределения, что и обучающий набор. Это связано с тем, что он отдает предпочтение моделям, которые могут отражать детализированные статистические свойства определенного набора данных, независимо от того, могут ли эти свойства быть обобщены на примеры задачи за пределами распределения набора данных. Это очень сильно отличается от того, как люди учатся, используя на несколько порядков меньше данных, чем модели, предпочитаемые этой парадигмой оценки. Они поддерживают создание контрольных показателей только для тестирования, потому что, несмотря на все наши усилия, мы, возможно, никогда не сможем создать контрольный показатель, в котором не было бы непреднамеренных статистических закономерностей. Теперь мы перейдем к теме динамических тестов в следующем разделе.

Динамические тесты

Статические тесты, которые оценивают системы на фиксированных наборах данных, страдают от следующих основных проблем:

Статические тесты быстро насыщаются. Область развивается так быстро, что статические тесты могут быстро насытиться. Как только бенчмарк становится насыщенным, исследователи начинают искать новые бенчмарки, а старые устаревают.
Статические тесты подвержены переобучению и могут содержать артефакты аннотаторов, которые можно использовать.В стремлении достичь самой современной (SOTA) производительности в статических тестах модели часто переобучаются для решения конкретных примеров, присутствующих в эталон. Хотя высокая точность может выглядеть впечатляюще, это может ввести в заблуждение. Например, почти человеческая производительность на «тесте» контроля качества не означает, что «задача» контроля качества решена. Было показано, что модели SOTA при тестировании на контролируемых примерах допускают ошибки, которые редко допускает человек. Модели, неспособные распознать намерения разработчиков набора данных, используют любые статистические закономерности, которые они находят в обучающих данных. При случайном разделении обучения/тестирования любая корреляция, наблюдаемая в обучающем наборе, будет приблизительно сохраняться для тестового набора, и система, которая обучилась этому, может достичь высокой точности эталона.
Статические тесты часто не имитируют реалистичные сценарии. В конечном счете, мы намерены создать системы, которые могут работать вместе с людьми, статический тест, даже если он собран с помощью краудсорсинга, часто представляет собой игрушечную задачу.

Facebook AI недавно представил Dynabench, платформу для динамического сбора данных и сравнительного анализа. Он использует динамический состязательный метод сбора данных, в котором участвуют как люди, так и модели. Людей просят создать примеры, обманывающие существующие модели SOTA. Преимущества этого метода двояки: он оценивает модели SOTA на основе реальных данных, полученных от людей (что позволяет понять ошибки, которые допускают текущие модели), и в результате получаются данные, которые можно использовать для обучения будущих моделей.

Как он решает проблемы статических тестов?

Поскольку это цикл, процесс не может насыщаться.
Он может автоматически исправлять артефакты аннотаций и другие смещения с течением времени.
Это позволяет нам измерять производительность способами, которые ближе к реальным приложениям, поскольку в цикле участвуют люди.

Dynabench предлагает более точный и надежный способ оценки прогресса в области ИИ. Он использует как людей, так и модели вместе «в цикле» для создания сложных новых наборов данных, которые приведут к более качественному и гибкому ИИ.

Качество данных

Данные служат топливом для глубокого обучения, и с увеличением количества данных в недавнем прошлом качество данных стало очень важным. В недавних работах были выделены следующие проблемы, связанные с качеством данных:

Не все примеры в наборе данных в равной степени способствуют обучению [11].
Артефакты набора данных могут привести к созданию слабых и предвзятых моделей с плохим обобщением. Предвзятость краудсорсинга — еще одна причина накопления артефактов набора данных.
Высокая производительность, достигаемая большими моделями, иногда является результатом статистических подсказок, присутствующих в обучающих данных, которые эти модели собирают и используют на тестовых данных.
Набор тестов некоторых тестов имеет очень похожие примеры на набор поездов. Следовательно, модель, которая хорошо запоминает набор поездов, хорошо работает с такими наборами данных. Недавние работы показали, что такие наборы данных приводят к чрезвычайно плохим моделям на примерах, которые невозможно запомнить из обучающего набора [10].
Недавние работы показали, что некоторые задачи, такие как обнаружение парафраз и обеспечение качества открытого домена, естественно, имеют крайний дисбаланс меток (например, 99,99% примеров являются отрицательными), т. е. при дедупликации вопросов подавляющее большинство пар вопросов с онлайн-форума не дублировать.
В QA Open-domain почти любой документ, выбранный случайным образом, не будет отвечать на заданный вопрос. Случайные пары предложений из разнообразного распределения не будут иметь отношения между собой в NLI, в отличие от отношения следствия или противоречия. Многие последние наборы данных эвристически выбирают примеры, чтобы обеспечить баланс меток, как правило, для облегчения обучения. QQP был сгенерирован путем поиска неповторяющихся вопросов, которые были эвристически определены как почти повторяющиеся. В SNLI краудворкеры генерировали входные данные, соответствующие заданному распределению меток.
Количественная оценка простоты/сложности экземпляров в наборе обучающих данных. Это можно сделать с помощью вероятностей прогнозирования модели. Интуиция, стоящая за этим, заключается в том, что если модель очень уверена (и правильна) в разных прогонах/эпохах, то эта выборка будет легкой для модели. С другой стороны, если модель неверна или имеет очень низкую достоверность, то эта выборка сложна для модели. На изображении ниже показано распределение обучающих экземпляров набора данных SNLI.

Состязательная устойчивость

Интерпретируемость DNN по-прежнему неудовлетворительна, поскольку они работают как черные ящики, а это означает, что трудно интуитивно понять, чему именно научился каждый нейрон. DNN уязвимы для стратегически модифицированных образцов (состязательных примеров). Современные модели, которые достигают высокой точности на определенных наборах данных, часто дают неожиданные сбои на входных данных, которые слегка возмущены, не изменяя их значения. Например, было показано, что искажение изображения «панды» (добавление незаметного шума к исходному входу) успешно обманывает модель классификации изображений SOTA, чтобы неправильно классифицировать его как «гиббона».

В последнее время даже в задачах обработки естественного языка (NLP) простые возмущения, такие как замена слов их синонимами, вставка опечаток и т. д., серьезно подрывают надежность моделей.

Почему методы Image для обмана не могут быть применены непосредственно к Text:

Изображение является непрерывным (в пикселях), но текст является символическим, поэтому дискретным. При применении состязательных атак на основе градиента, взятых из изображений, к этим представлениям, сгенерированные состязательные примеры представляют собой недопустимые символы или последовательности слов.
Возмущения в изображениях (небольшие изменения значений пикселей) трудно воспринимаются человеческим глазом, и люди все еще могут правильно классифицировать такие входные данные. Чтобы показать низкую надежность моделей изображений, нам нужно обмануть модель, используя такие входные данные. Но для текстов небольшие возмущения легко заметны. Например, замена некоторых символов или слов приведет к созданию недопустимых слов или синтаксически неправильных предложений.
Возмущение текста также изменяет семантику предложения. Таким образом, возмущения могут быть легко восприняты.

Типы противников в тексте:

Объединение противников — добавьте отвлекающие, но бессмысленные предложения в конце абзаца. Эти предложения не меняют семантику и могут быть тщательно сгенерированы информативными предложениями или произвольными последовательностями слов. Например, в статье «Состязательные примеры для оценки систем понимания прочитанного» авторы показывают, что добавление некоторого текста к абзацу приводит к тому, что модель делает неверный прогноз.

Редактировать злоумышленников. В этой категории есть два типа атак: атаки «не следует изменять» и атаки «следует изменить». Атаки типа «не следует изменять» включают изменение текста таким образом, чтобы сохранить метку исходного текста. Примеры таких методов: Случайная замена соседних токенов, Выпадение стоп-слов, Перефразирование, Грамматические ошибки. Атаки «следует изменить» включают в себя такие методы, как «Добавить стратегию отрицания» (отменить корневой глагол исходного ввода), заменив антонимами.

Защита от вражеских атак:

Существует два популярных подхода к защите от состязательных атак: состязательное обучение и дистилляция знаний.

Обучение состязательности — используйте примеры состязательности во время обучения. Данные могут быть собраны с использованием стратегий увеличения данных, таких как синтетическая генерация или использование моделей генерации языка.
Дистилляция знаний с температурным масштабированием — будет добавлено в ближайшее время.

Надежность вне распределения

Глубокие нейронные сети часто обучаются с использованием предположения о закрытом мире, т. е. предполагается, что распределение тестовых данных аналогично распределению обучающих данных. Однако при использовании в реальных задачах это предположение не соответствует действительности, что приводит к значительному снижению их производительности. Хотя это падение производительности допустимо для нетерпимых приложений, таких как рекомендации по продукту, использовать такие системы в нетерпимых областях, таких как медицина и домашняя робототехника, опасно, поскольку они могут привести к серьезным несчастным случаям. Идеальная система ИИ должна по возможности обобщать примеры вне распространения (OOD) и помечать те, которые выходят за рамки ее возможностей по поиску вмешательства человека. Об ООД есть отдельная статья здесь. Вот план этой статьи:

Немного о OOD
— Почему обнаружение OOD важно?
— Почему модели имеют неустойчивость OOD?
— Типы обобщений
— Вероятные причины для более высоких Надежность предварительно обученных моделей (таких как BERT) по сравнению с традиционными моделями
— другие связанные проблемы
Подходы к обнаружению случаев OOD
— Максимальная вероятность Softmax
— Объединение нескольких моделей
— Температурное масштабирование
— Обучение модели двоичной классификации в качестве калибратора< br /> — Дропаут Монте-Карло

Другие известные работы, связанные с устойчивостью в НЛП:

BERT пера не обобщают вместе: большие различия в обобщении между моделями с одинаковой производительностью набора тестов
В этом документе рассматривается следующий вопрос: «Если одна и та же архитектура обучается несколько раз на одном и том же наборе данных (с разными начальными весами и/или другим порядком обучающих экземпляров), будет ли он делать аналогичные лингвистические обобщения для разных прогонов?
С этой целью они обучают 100 экземпляров BERT на MNLI и оценивают набор данных MNLI и HANS. Они обнаружили, что в наборе данных MNLI поведение всех экземпляров было удивительно согласованным, но одни и те же модели сильно различались по своим характеристикам обобщения в наборе данных HANS. Они приписывают такое поведение наличию множества локальных минимумов, одинаково привлекательных для учащегося с низким уклоном, такого как нейронная сеть; поэтому для уменьшения изменчивости могут потребоваться модели с более сильными индуктивными смещениями.
Предварительно обученные трансформаторы улучшают надежность вне распределения
В этой работе сравниваются характеристики OOD моделей трансформаторов с моделями BOW, LSTM и word2vec.
Они обнаружили, что модели-трансформеры, такие как BERT, RoBERTa и т. д., более надежны, чем модели BOW, LSTM и word2vec. Они связывают это с предварительной подготовкой преобразователей, которая включает в себя как самоконтролируемую цель обучения, так и разнообразие данных. Кроме того, они обнаружили, что «более разнообразные данные предварительной подготовки могут повысить надежность, поскольку RoBERTa демонстрирует большую надежность, чем BERT Large».
Выборочный ответ на вопрос при смене предметной области
В этой работе исследуется настройка выборочного ответа, когда модель может воздержаться от ответа, если она недостаточно уверена. Они предлагают метод калибровки, который позволяет модели решать, когда отвечать, а когда воздержаться. Подробнее об этой технике я рассказывал в другой статье.
О важности адаптивного сбора данных для чрезвычайно несбалансированных парных задач
Скоро будет добавлено.
УЗНАТЬ РАЗНИЦУ, КОТОРАЯ ИМЕЕТ РАЗНИЦУ, С ДОПОЛНИТЕЛЬНЫМИ ДАННЫМИ
Скоро будет добавлено.

Посмотрите мои статьи по теме:

Использованная литература:

Джонсон, Джастин и др. «Clevr: диагностический набор данных для композиционного языка и элементарного визуального мышления». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2017.
Маккой, Р. Томас, Элли Павлик и Тал Линзен. «Правильно по неправильным причинам: диагностика синтаксической эвристики в выводе естественного языка». Препринт arXiv arXiv: 1902.01007 (2019).
Ван, Алекс и др. «Суперклей: более надежный эталон для систем понимания языка общего назначения». Достижения в области нейронных систем обработки информации. 2019.
Поттс, Кристофер и др. «DynaSent: динамический ориентир для анализа настроений». Препринт arXiv arXiv: 2012.15349 (2020).
https://dynabench.org/
Маккой, Р. Томас, Чонхён Мин и Тал Линзен. «Берты одного пера не обобщают вместе: большая вариабельность в обобщении для моделей с одинаковой производительностью набора тестов». Препринт arXiv arXiv: 1911.02969 (2019).
Хендрикс, Дэн и др. «Предварительно обученные трансформаторы улучшают устойчивость вне распределения». Препринт arXiv arXiv: 2004.06100 (2020).
Камат, Амита, Робин Джиа и Перси Лян. «Выборочный ответ на вопрос при смене домена». Препринт arXiv arXiv: 2006.09462 (2020).
Линзен, Таль. «Как мы можем ускорить прогресс в направлении человекоподобного лингвистического обобщения?». Препринт arXiv arXiv: 2005.00955 (2020).
Льюис, Патрик, Понтус Стенеторп и Себастьян Ридель. «Тестовый поезд вопросов и ответов перекрывается в открытых наборах данных для ответов на вопросы». Препринт arXiv arXiv: 2008.02637 (2020).
Сваямдипта, Свабха и др. «Картография набора данных: отображение и диагностика наборов данных с динамикой обучения». Препринт arXiv arXiv: 2009.10795 (2020).
Джиа, Робин и Перси Лян. «Состязательные примеры для оценки систем понимания прочитанного». Препринт arXiv arXiv: 1707.07328 (2017).
Мусманн, Стивен, Робин Джиа и Перси Лян. «О важности адаптивного сбора данных для чрезвычайно несбалансированных парных задач». Препринт arXiv arXiv: 2010.05103 (2020).