Кураторский список наиболее важных наборов данных здравого смысла в НЛП

Проблема здравого смысла и базовых знаний, вероятно, одна из самых сложных проблем в искусственном интеллекте. Большинство наших рассуждений о мире основано на невысказанном знании частично наблюдаемой среды. Мы делаем выводы, основываясь на нашем общем понимании мира и приводим самые лучшие объяснения. Здесь мы представляем некоторые базовые наборы данных и показываем, как из них создаются другие наборы данных.

В основе большинства этих проблем лежит проблема «понимания истории»: как мы понимаем истории и как мы можем отвечать на вопросы о них, читая между строк и заполняя пробелы в знаниях, которые не упоминаются явно в тексте, но могут быть «выведенными» на основе здравого смысла. Например, если мы читаем историю о человеке с избыточным весом, который идет к врачу. Мы знаем, что это, вероятно, потому, что он диетолог и хочет диету. Еще более очевидным является то, что мы знаем, что вам нужно записаться на прием, чтобы пойти к врачу, а врач находится на расстоянии друг от друга и т. Д.

Для задачи «понимания истории» исследователи начинают с ROCstories: простого набора данных, содержащего очень короткие рассказы из 5 предложений на разные темы. Вы можете увидеть здесь один образец:

Была предложена простая задача - удалить последнее предложение и позволить модели выбрать правильное окончание. Это задача с множественным выбором, которую можно свести к задаче классификации. По сути, модель должна знать, что влекут за собой первые 4 предложения, как наиболее правдоподобные для продолжения. Имейте в виду, что не существует одного верного последнего предложения. Мы всегда можем найти другие правдоподобные альтернативы. Поэтому иногда мы называем их гипотезами.

Это может быть даже более детально, что означает, что мы можем вывести одну или несколько правдоподобных гипотез из одного предложения или исключить другие гипотезы как противоречащие или нейтральные по отношению к имеющимся свидетельствам (предпосылкам). Наборы данных естественного языка (NLI), такие как SNLI и MultiNLI, показывают взаимосвязь между предпосылкой и гипотезой как «предполагающую», «противоречивую» или «нейтральную». Например:

Предпосылка: мужчина осматривает форму фигуры в какой-то восточноазиатской стране.

Суждение: противоречие

Гипотеза: мужчина спит

Кроме того, существует выбор правдоподобного обоснования (COPA), который предназначен для причинного обоснования. Каждый вопрос состоит из предпосылки и двух гипотез (или альтернатив), где задача состоит в том, чтобы выбрать гипотезу, которая более вероятно имеет причинно-следственную связь. связь с помещением. Например:

Предпосылка: мужчина сломал палец на ноге. В чем была ПРИЧИНА этого?
Гипотеза 1: у него дырка в носке.
Гипотеза 2: он уронил молоток себе на ногу

Основываясь на вышеупомянутых наборах данных, мы можем более подробно остановиться на наборах данных здравого смысла, которые в основном разрабатываются AllenAI.

Набор данных ATOMIC

Это набор данных, основанный на здравом смысле, о взаимоотношениях если-то между 877 тыс. Текстовых переменных. Отношения ограничены 9 типами

Это один из примеров:

Подробнее здесь. Этот набор данных с Conceptnet использовался в COMET, которая представляет собой простую модель преобразователя, настроенную на эти наборы данных. Модель может вывести 9 различных классов выводных отношений, упомянутых выше для новой посылки.

α- NLI и NLG

Абдуктивное рассуждение - это наиболее правдоподобное объяснение неполных наблюдений. На самом деле это идет от наблюдения к причинам или предпосылкам, и из-за этого его также называют обратным рассуждением. Причина этого наименования - дальновидность, основанная на хорошо известных модах ponens. Например, у нас есть прямое рассуждение (или дедукция) вроде этого:

Правило: все люди смертны.
Наблюдение: Сократ - человек.
Вывод: Сократ смертен.

Но представьте себе следующие рассуждения:

Наблюдение: дорога мокрая.
Правило: во время дождя дорога становится влажной
Вывод: шел дождь

Этот вывод может быть ошибочным (дорогу намочила другая машина), но это наиболее правдоподобное объяснение. В отличие от дедукции и индукции, которые являются двумя наиболее изученными видами разума, абдукция намного сложнее и включает в себя создание гипотез. Это немонотонное рассуждение, означающее, что сделанные нами выводы могут быть пересмотрены при появлении новых данных.

Одно из основных различий между этими тремя видами рассуждений приведено ниже:

1- Таким образом, невозможно, чтобы посылки были истинными, а вывод был бы ложным. Отношения между предпосылками и выводами являются «необходимостью». Все люди смертны, тогда все люди смертны.

2- По индукции маловероятно, что посылки верны, а вывод был бы ложным. Связь между предпосылками и выводами носит «вероятностный» характер. Если все наблюдаемые лебеди белые, то все лебеди белые.

3- В случае похищения маловероятно, что посылки верны, а вывод был бы ложным. Связь между предпосылками и выводами «правдоподобна». Нож находится в задней части трупа, поэтому вполне вероятно, что он был убит (в отличие от самоубийства или несчастного случая).

Третий вид рассуждений самый слабый из всех.

Абдуктивное мышление предполагает понимание различных сценариев и базовые знания о мире. Например, на картинке выше, если окно приоткрыто, большая птица не может прилететь в дом. Это включает в себя понимание размера «обычной большой птицы», размера «приоткрытого окна» и физических ограничений.

AlphaNLI - это набор данных, который содержит две конкурирующие гипотезы, которые человеку легко выбрать в качестве «разумного объяснения» для наблюдения, но сложно для систем ИИ. (Обратите внимание, что на самом деле существует гораздо больше конкурирующих гипотез, но здесь мы ограничимся двумя). Набор данных был создан на основе набора данных ROCstories.

Задача Alpha NLI включает модель для предсказания правильной гипотезы на выбор.

AlphaNLG - это тот же набор данных, но его задача - сформировать гипотезу. Чтобы сделать это еще проще для модели, альфа NLG дополнен 9 связями из COMET (обученных на ATOMIC), чтобы добавить результаты обоих наблюдений «если-то». Для этого они добавляют пучок из 5 следствий для каждого отношения. Пример этого можно увидеть ниже:

Defeasible NLI или δ- NLI

Одна из особенностей некоторых абдуктивных рассуждений состоит в том, что они в то же время несовместимы. Возможные аргументы - это аргументы, которые могут быть приемлемы в данный момент, даже если в будущем они могут быть проиграны. Позже могут появиться новые доказательства, опровергающие этот аргумент.

Каноническим примером отрицательного аргумента, который так часто используется в ИИ, является аргумент Твити:

Наблюдение: Твити - птица
Правило: птицы летают
Вывод: Твити летает.

Аргумент Твити может быть рационально приемлемым, если предположить, что у нас нет никакой информации о Твити, кроме того, что он - птица. Но предположим, что новая информация (Обновление) сообщает нам, что Твити - пингвин. Пингвин - птица, но не умеет летать.

Вторая посылка аргумента Твити (правило) не является универсальным обобщением абсолютного типа, которое может быть воспроизведено универсальным квантором дедуктивной логики. Это тоже не индуктивное обобщение. В нем говорится, что птицы обычно летают или что обычно можно ожидать полета птицы, за некоторыми исключениями.

Не все возможные исключения можно спрогнозировать заранее. Таким образом, отклоняемый аргумент - это открытый аргумент, в то время как дедуктивно действительный аргумент закрыт, поскольку он обязательно подразумевает свой вывод. Дедуктивная логика монотонна, что означает, что новые факты или знания не изменят заключения действительного дедуктивного вывода. С другой стороны, ошибочные рассуждения немонотонны, что означает, что с учетом новых фактов выводы могут измениться.

Существует очень тесная связь между абдуктивным рассуждением и ошибочным рассуждением. (это необходимо расширить)

Обновления могут усилить или ослабить гипотезу по умолчанию. Вот один пример из набора данных d-NLI, который можно увидеть ниже:

Путешествие во времени или контрфактические рассуждения

По материалам Википедии:

Контрфактическое мышление - это концепция в психологии, которая включает в себя человеческую тенденцию создавать возможные альтернативы уже произошедшим жизненным событиям; то, что противоречит тому, что произошло на самом деле. Контрфактическое мышление, как говорится, «противоречит фактам». Эти мысли состоят из «Что, если?» и «Если бы я только…» возникали, когда думали о том, как все могло бы обернуться по-другому.

Контрфактическое рассуждение требует предсказания того, как альтернативные события, противоположные тому, что произошло на самом деле, могли привести к разным результатам. Одним из желаемых свойств систем ИИ является способность предсказывать причинные изменения в будущих событиях с учетом контрфактических условий, применяемых к исходной цепочке событий.

Например, учитывая исходную историю на рисунке выше, где «Пьер любил Хэллоуин. В этом году он решил стать вампиром. Он получил черный плащ и белую краску для лица ... »и контрфактическое условие:« А что, если Пьер решил стать оборотнем, а не вампиром? », Интеллектуальная система должна быть способна соответствующим образом пересмотреть последующие события в истории, например , что коричневый свитер будет более уместным, чем черная накидка.

В наборе данных TimeTravel, основанном на ROCstories, второе предложение в исходной истории было изменено, и история идет с другим концом.

Важной проблемой при построении контрфактических рассуждений является причинная инвариантность, а именно те аспекты будущих событий, которые инвариантны при контрфактических условиях. Это необходимо для того, чтобы точно рассуждать о новых последствиях с минимальными изменениями исходной последовательности событий, вместо того, чтобы быть запутанным ложными корреляциями.

Аналогичные проблемы возникают в области управляемой генерации языка, которая включает в себя сохранение содержимого текста при его изменении в одном или нескольких измерениях, таких как тема (Koncel-Kedziorskiet al., 2016), стиль (Lample et al., 2019) и настроения (Shen et al., 2017). Рассуждения в этих задачах ограничиваются дискретными осями (например, настроения), которые часто классифицируются с помощью закрытого набора меток ({положительный, отрицательный}). Из-за мотивации к управляемости эти оси и метки обычно известны априори. Напротив, контрфактический переписывание сосредотачивается на причинах и следствиях рассказа, измерениях, которые могут потребовать более сложных и разнообразных, но потенциально тонких изменений, чтобы приспособиться к контрфактическому событию.

Каждый пример состоит из истории из пяти предложений S = (s1, ..., s5) с общей структурой, где первые предложения1 устанавливают предпосылку, второе предложение s2 предоставляет дополнительную информацию о начальном контексте, а последние три предложения s3 : 5 - это оригинальная концовка истории. Далее нам дается дополнительное предложение s′2, которое противоречит исходному контексту s2. То есть s′2 утверждает нечто противоположное s2, что, в свою очередь, может сделать исходное окончание s3: 5 недействительным. Таким образом, цель задачи - переписать концовку так, чтобы отредактированная концовка s′3: 5 минимально изменяла исходную и восстанавливала связность повествования с новым контрфактическим контекстом.

Еще здесь и здесь.

CommonGen

CommonGen - это набор данных, который разработан для генерации языка, управляемого здравым смыслом, или генеративного здравого смысла. Учитывая набор понятий (например, {собака, фрисби, поймать, бросить}), задача состоит в том, чтобы сгенерировать связное предложение, описывающее повседневный сценарий, используя эти концепции (например, «человек бросает фрисби, а его собака ловит»).

Задача CommonGen сложна, потому что она по своей сути требует:

реляционные рассуждения на основе здравого смысла,
способность композиционного обобщения работать над невидимыми концептуальными комбинациями.

Образец данных можно увидеть ниже:

Подробнее здесь

Социальное здравое рассуждение

здесь мы исследуем два основных набора данных: SocialIQA и Social Chemistey101

SocialIQA - это первый крупномасштабный тест, позволяющий здраво рассуждать о социальных ситуациях. SocialIQA содержит 38 000 вопросов с несколькими вариантами ответов для проверки эмоционального и социального интеллекта в различных повседневных ситуациях.

Выполнение этих выводов - вот что делает нас экспертами в навигации по социальным ситуациям и тесно связано с Теорией разума, то есть способностью рассуждать о убеждениях, мотивациях и потребностях других.

Этот набор данных основан на наборе данных ATOMIC. SocialIQA содержит несколько типов вопросов, охватывающих различные типы логического вывода. Типы вопросов являются производными от измерений вывода ATOMIC.

Вот образец набора данных:

Еще один важный набор данных о социальном интеллекте - это социальная химия 101.

социальная химия 101 - это новый концептуальный формализм для изучения повседневных социальных норм и моральных суждений людей по широкому спектру реальных жизненных ситуаций, описанных на естественном языке.

Это крупномасштабный корпус, который включает в себя 292 тыс. Эмпирических правил, таких как «Грубо запускать блендер в 5 утра» в качестве основных концептуальных единиц. Каждое практическое правило разбивается на 12 различных аспектов суждений людей, включая социальные суждения о хорошем и плохом, моральные основы, ожидаемое культурное давление и предполагаемую законность, что вместе составляет более 4,5 миллионов аннотаций категориальных ярлыков и бесплатных -текстовые описания.

Вот образец данных:

Это также можно увидеть, как показано ниже:

Виногранде

Виногранде является преемником Винограда и руководствуется здравым смыслом, заполняя пробел, где пробел соответствует упоминанию одного из двух имен в контексте.

На первый взгляд, вопросы схемы Винограда просто требуют разрешения анафоры: машина должна идентифицировать антецедент двусмысленного местоимения в утверждении. Это делает задачу обработкой естественного языка, но для схем Винограда эта задача требует использования знаний и здравого смысла рассуждений.

Вот один из примеров:

Разница между Виногранде и Виноградом заключается в том, что они удалили все языковые предвзятости, что упрощает для моделей выбор правильного ответа на основе корреляции и непонимания взаимосвязей:

Задачи WSC состоят из пар (называемых двойниками) почти идентичных вопросов с двумя вариантами ответа. Вопросы включают слово-триггер, которое переключает выбор правильного ответа между вопросами. Примеры (1) - (3) взяты из WSC (Levesque, Davis, and Morgenstern 2011) и (4) из DPR (Rahman and Ng 2012)). Примеры, отмеченные цифрой 7, имеют языковую предвзятость, которую современные языковые модели могут легко обнаружить. Пример (4) нежелателен, поскольку слово «хищники» чаще ассоциируется со словом «львы», чем со словом «зебры».