Я предлагаю им этого не делать.

Этот пост можно читать отдельно или как вторую часть Новые ориентиры Императора. В этом посте был рассмотрен эталон преходящего любопытства (обнаружение каламбура), но теперь мы рассмотрим проблему, которая вызывает постоянное почитание в сообществе.

Распознавание текстовых искажений

Несколько тестов NLP проверяют семантическое понимание. Одним из них является распознавание текстового вовлечения (RTE): учитывая два предложения, предпосылку P и гипотезу H, решите, можем ли мы заключить H, учитывая P. Это бывает двух разновидностей. Для двоичного RTE ответ может быть только да или нет. Для тернарного RTE третий возможный ответ состоит в том, что P и H противоречат друг другу.

Даган и др. (2005) представляют RTE и доказывают, что решение этого позволяет решать многие задачи НЛП, такие как ответы на вопросы, извлечение информации и обобщение.

Я согласен: возможность ответить на этот вопрос любой парой произвольных предложений в любом контексте чрезвычайно полезна.

В двух словах о моем беспокойстве и аргументе

Я сомневаюсь в способности текущих тестов оценить последствия. Если тесты RTE не позволяют точно измерить силу фактической проблемы RTE, нам следует с осторожностью относиться к таким утверждениям, как (Sammons et al., Стр. 4) Можно сказать, что система, которая хорошо работает на этих корпусах, имеет добился хорошего «понимания текста на естественном языке ».

В двух словах: тест RTE нацелен на измерение семантических возможностей моделей, но он предоставляет им только текстовый ввод P и H, не связанный с ситуацией, когда P или H могли иметь место. Таким образом, неявно предполагается, что слова имеют достаточно смысла, чтобы определить взаимосвязь. Но значение зависит от других факторов, например, кто к кому обращался и в каком окружении. Исключительная заслуга в значимости слов - это неоправданно великодушно. Многое из того, что придает значение словам, находится вне слов и не раскрывается по буквам. Если бы это было не так, общение стало бы трудоемким и невозможным.

Я далеко не первый, кто предположил, что смысл не в полной мере содержится в словах, и не я первый, кто высказал эту озабоченность по поводу этой задачи. Фактически, Даган и др. признают часть этой проблемы в их оригинальной статье (параграф «Мировые знания» в разделе 4). Я думаю, что они сильно недооценивают масштабы.

Зачем я это пишу

Мне не все равно.

Тесты с низкой точностью приводят к неправильной ориентации научных ресурсов. Рассмотрите пространство всех возможных моделей задачи. Тест дает оценку для каждого и, таким образом, представляет ландшафт фитнеса: более эффективные модели имеют большую высоту, а самые эффективные модели будут на пике.

В современной практике НЛП по вершинам этой фитнес-функции поднимается длинная вереница моделей. Например, во многих тестах более высокие высоты были быстро увеличены с помощью ULMFiT, ELMo, BERT, GPT-2, XLNet и RoBERTa.

Тест с низкой точностью имеет пики, не совпадающие с пиками исходной задачи. Эти фальшивые пики образуют подходящую среду обитания для класса моделей, которые вполне могут не соответствовать пикам реального фитнес-ландшафта. Если мы гонимся за большими высотами на фальшивом фитнес-ландшафте, мы тратим драгоценные ресурсы.

Чем ниже верность, тем хуже становится.

Бесполезно ли это беспокойство? Рассмотрим из той же статьи Дагана и др. Эту оценку представленных моделей: Интересно, что сложность системы и сложность вывода не полностью коррелировали с производительностью, где некоторые из лучших результатов были получены с помощью довольно наивных систем, основанных на лексике. . Это наблюдение, по сути, является перефразированием наблюдений, сделанных много лет спустя в отношении набора данных каламбура (Miller et al., 2017): хотя существует значительный объем исследований в лингвистике по фонологическим моделям каламбура (Hempelman and Miller, 2017). ) и по семантическим теориям юмора (Раскин, 2008), эта работа практически не способствовала информированию участвующих систем . Это не случайно.

То, что тесты можно использовать в играх, было недавно вновь убедительно продемонстрировано Poliak et al. (2018) , когда они построили системы, которые показали гораздо лучшие результаты, чем случайность, для нескольких последовательных наборов данных для задач подразумевает ли А B , где системе вообще никогда не было показано А.

Ричард Фейнман в своей книге «Характер физического закона» (стр. 50) излагает закон тяготения тремя разными способами, «каждый из которых в точности эквивалентен, но звучит совершенно по-разному». Первая версия - это знакомая «F = GMm / r²», вторая - «полевой путь» с использованием потенциала, а третья - это путь, который минимизирует определенную величину. Представляя каждого из них, он указывает на их философские различия, например, в том, что они полагаются на действие на расстоянии. В частности, он указывает на то, как они различаются психологически: если мы обнаружим, что закон неточен, мы захотим его изменить; но поправки, предлагаемые каждой из этих формулировок, различны, что делает теории психологически несхожими.

Компьютерная модель может быть неточной, но указывать путь. Его ошибки могут указывать на недостатки и предлагать конкретные исправления.

Как ни странно, модели, которые преуспевают на пике фальшивого фитнес-ландшафта, даже в интересном смысле не ошибаются. Они не предлагают пути вперед. Сквозные модели глубокого обучения часто критикуют за непрозрачность.

Наконец, утверждения о «сверхчеловеческих возможностях» сбивают меня с толку. Если я смогу сделать прививку даже нескольким читателям против таких высоких заявлений о фалутине, я буду удовлетворен.

Создание контрольных показателей - тяжелая работа

И я благодарен людям за это. Прекрасно иметь отличный набор примеров, на которых мы можем тестировать модели и учиться. От тестирования модели на эталонном тесте я хочу получить подробное представление о недостатках модели. Что я критикую, так это нынешнюю практику, когда из нее просто извлекают одно число - точность. Возможно, мы даже не получаем одно число - мы получаем один бит: SOTA-or-Not.

Мои возражения относятся только к этой установке. Если человек смотрит на соответствие модели и данных на примере, он сможет распознать и пропустить сомнительные примеры. Но если оценки просто усредняются, и даже среднее значение видит только другой алгоритм - поиск по сетке - проблемы возникают из-за несоответствия между фактической задачей и версией этой задачи в тесте.

Наброски

Мы начнем с того, что посмотрим, как смысл не полностью улавливается одними словами. Затем мы посмотрим, как эти проблемы затуманивают тесты RTE.

Внетекстовое значение

Инертные отметки на странице и простые звуки наполняются смыслом, когда мы читаем и слушаем. Хотя сами слова запускают этот генезис значения, они не определяют его полностью. Другими факторами являются наши знания, ситуационный контекст, коннотации слов и активное объединение воедино, в которое мы вовлечены. Так же, как ДНК нуждается в цитоплазматической среде для экспрессии, и точно так же, как она производит различные белки в зависимости от специфики окружающего химического вещества. суп, слова становятся значимыми в правильной среде, и одни и те же слова могут означать разные вещи в разных контекстах и ​​в разных представлениях.

Давайте рассмотрим четыре составляющих создания смысла.

Знания слушателя

Я не говорю по-эстонски, и предложение на эстонском для меня ничего не значит. Что еще более уместно, я не говорю по фармакологии, нефрологии или эсхатологии, хотя я знаю несколько фраз. Слова, которые рисуют для вас яркую картину, могут ничего не значить для меня или рисовать что-то неполное и вводящее в заблуждение.

Золотые данные для эталонного теста получены от слишком человечных оценщиков. Мы можем пожелать, чтобы они судили приговор на основе «реального» значения, но они судят его на основе значения, которое видят. Они легко считают эквивалентными фразы «Я живу в Нью-Йорке» и «Я живу в Нью-Йорке», но могут не согласиться с эквивалентностью «Я принимаю тайленол ежедневно» и «Каждый день я принимаю парацетамол». Примеры предложений из наборов данных RTE связаны с медициной, астрономией, этикой и международной дипломатией, и некоторым оценщикам приходится путешествовать.

Еще одна пара предложений, требующая знаний для тернарного RTE: «В этой топологии X - открытое множество» и «В этой топологии X - замкнутое множество». В топологии набор может быть как закрытым , так и открытым, но терминология предполагает иное - бесконечный источник путаницы для студентов, начинающих топологию. Большинство оценщиков отметят эти предложения как противоречащие друг другу.

В качестве инженера по предотвращению пожаров Бенджамин Ли Уорф исследовал пожар, вызванный тем, что рабочие бросили зажженную спичку в бочку с бензином с надписью Empty. Уорф утверждал, что этикетка убаюкивала рабочих, думая, что в бочках нет паров бензина. Слово открыто также предполагает противоположность закрытого, хотя эти два слова не находятся в этой взаимодополняющей связи. Предполагается, что закрытые множества в топологии являются дополнением открытых множеств.

Знания и опыт оценщика влияют на то, как он оценивает взаимосвязь между предложениями.

Контекст разговора

Вы не раз произносили эту фразу: «Четверг. «То, что вы передаете каждый раз, не было идентичным или даже одним и тем же« речевым актом »: иногда вы предоставляли информацию, иногда вносили предложения, иногда исправляли. Предложение, оторванное от ситуации, не может, таким образом, передать всю историю предполагаемого значения.

Некоторые отбросят это беспокойство, заявив, что таких предложений немного и что идеальное не может быть врагом хорошего. Но каждое предложение в разной степени похоже на предложение «четверг». Даже длинные предложения опускают информацию и предполагают справочную информацию. Они возвращаются к предыдущему предложению, абзацу или главе и к общей почве, установленной с читателем.

В спортзале мой тренер произнес фразу дважды с интервалом в двадцать минут. Он сказал: «Дай мне достать тебе маленькую гантель» и вернулся один раз с парой 10-фунтовых гантелей, а второй раз с парой 40-фунтовых. Одна и та же фраза, сделанная одним и тем же говорящим одному и тому же слушателю в одном месте, означала разные вещи - мы работали с разными группами мышц. Сами слова дают частичные подсказки, и именно через взаимодействие этих подсказок с окружающей средой устанавливается значение, или, скорее, значение угадывается. Обычно угадывают хорошо, но все равно угадывают. Между прочим, являются ли эти два предложения пересказами: «Дай мне маленькую гантельку» и «Дай мне дать тебе маленькую гантель»?

Этот разговорный контекст распространяется на дискурсы, происходящие в обществе в целом. Темы в наборах данных RTE включают ОМУ, нелегальную иммиграцию, смертную казнь, евро в качестве валюты - невозможно, чтобы оценщики были избавлены от расширенного общественного разговора, и каждый оценщик участвовал в своей части.

Коннотации

Фраза «roe v wade» теперь означает гораздо больше, чем буквальное значение судебного процесса с участием roe and wade. Это поляризует. Он ассоциируется со свободой, ассоциируется с убийством, ассоциируется с судебным злоупотреблением, подразумевает необходимую защиту от чрезмерного религиозного рвения. Коннотации делают значение субъективным. Перефразируют ли эти два предложения: «Майк - сын Джона» и «Майк - сопляк Джона»?

Коннотации живут в самых тонких аспектах, созревших для сбора политиками, искусными в использовании собачьих свистков. Джордж Буш выбрал такие слова:

Буш обращался к женщинам предложениями, которые начинались со слов «Я понимаю», и повторял такие слова, как «мир», «безопасность» и «защита». Для военных он использовал «Никогда не сдавайся», «Что бы это ни стоило», «Мы не должны колебаться» и «Не смотри». Что касается христиан, он начал предложения с «и», как это делает Библия: «И во всем грядущем мы можем знать, что Его цели справедливы и истинны». (Спасибо за аргументы, Джей Хейнрихс, стр. 253)

Мы все время читаем между строк, но каждый из нас галлюцинирует по-своему, хорошо уловленный клише «один террорист - другой борец за свободу». Значение, которое рейтеры вкладывают во фразу «легализация наркотиков», будет влиять на то, примут ли они как логичный вывод «Легализация наркотиков будет потрясающим!», Независимо от того, что это за предпосылка.

Создание смысла активно

Я оставил напоследок то, что считаю центральным ингредиентом. Слова не получают заранее обозначенных значений с их точным смыслом - наш мозг собирает значения воедино. Понаблюдайте за собой, когда вы поймете это описание Дикого Запада: это место, где мужчины есть мужчины. Два экземпляра мужчин не могут быть идентичными по смыслу, и тем не менее, слова не имеют точного смысла - мы добавляем к нему значение.

В поисках смысла мы копаемся в значениях, пока не наткнемся на комбинацию, которая имеет смысл. Попутно мы можем изменять и растягивать значения слов, рассматривать возможность того, что мы неправильно расслышали и исправлять соответственно, смешивать, как это предлагается в книге «Как мы думаем» (Фоконье и Тернер), и совершать другие виды насилия, проиллюстрированные этими двумя личными анекдотами.

Анекдот №1: Когда моей дочери Сухане было 4 года, мы жили недалеко от Нью-Йорка и 1 января ехали поездом в город. Многие люди поздравляли нас с Новым годом, и Сухана также начала желать людям счастливого Нью-Йорка. Это классический случай ошибки захвата: когда вы используете имеющиеся в вашем распоряжении ресурсы для осмысления. Нью-Йорк был в ее репертуаре, тогда как Новый год - нет, следовательно, захват последнего первым.

Анекдот №2: Когда мне было шесть лет, я не знал хинди, но познакомился с песнями Болливуда благодаря моему старшему брату Ашишу. В одной песне из фильма «Ярана» (Дружба) есть такая строчка: «Ты поднял меня из пепла (хак) и посадил на пьедестал (пхалак)» - сложные идеи для шестилетнего неродного ребенка. Десять лет спустя, когда я говорил на хинди, я отказался от своего уверенного знания, что фраза была такой: «Ты взял меня с деревянной кровати (кат) и усадил на металлическую кровать (паланг)». В Индии того времени деревянная кровать была деревенской, а металлическая - более городской и современной, и, таким образом, переход представлял собой продвижение, соответствующее тону песни.

Отсутствие существующих крючков (или изготовляемых крючков) для привязки смысла приводит к недоумению, как это происходит в этом предложении Дугласа Адамса: «В те дни духи были храбрыми, ставки были высоки, мужчины были настоящими мужчинами, женщины были настоящими женщинами, а маленькие пушистые существа из Альфы Центавра были настоящими маленькими пушистыми существами из Альфы Центавра ».

Я не могу достаточно подчеркнуть этот процесс добавления смысла. Оценщики, оценивающие пары предложений на предмет следования, придумывают собственное значение. Субъективность - враг науки? - поднимает непрошеную голову. Слушатель отказывается уходить, что портит чистую простоту текстового теста.

Внетекстовые посягательства на RTE

Я загрузил данные RTE с веб-сайта Super-GLUE (Super-General Language Understanding Evaluation).

Обратите внимание: для простоты изложения я выбрал только примеры, в которых данные утверждают, что гипотеза вытекает из предпосылки. Таким образом, я обозначаю гипотезы как вытекающие из них гипотезы.

Попытка объективности…

Была сделана попытка получить чистые, однозначные данные. Даган и др. сообщают, что были сохранены только образцы со 100% соглашением оценщиков. Эта потребность в объективности может привести к тривиальным выводам из предпосылок. В нескольких примерах гипотеза напрямую выводится из предпосылки. Например:

#99

Предпосылка: Место скорби после смерти Папы Иоанна Павла II стало местом празднования, когда верующие римско-католической церкви собрались в центре Чикаго, чтобы отметить вступление в должность нового Папы Бенедикта XVI.

Взвешенная гипотеза: Папа Иоанн Павел II умер.

Я мягко предлагаю, чтобы правильный ответ на этот вопрос, поскольку следствие не должен быть билетом модели в клуб, «добился хорошего понимания текста на естественном языке». Предпосылка представляет собой сложное, полностью понятное предложение, которое включает в себя понятия смерти, печали, христианства, празднования назначения нового Папы и так далее.

Некоторые примеры, хотя и не являются прямыми подстроками, зависят в своем ответе от пары смежных слов в шаблоне, повторяющемся достаточно часто, чтобы алгоритм машинного обучения счел нужным это сделать. Например, № 829 содержит гигантскую предпосылку из 100+ слов, содержащую фразу «Луисвилл, Кентукки», а вытекающая из этого гипотеза - «Луисвилл находится в Кентукки». Это синтаксические преобразования, которые не глубоко исследуют понимание.

… но субъективность сохраняется

Есть много примеров, когда для одних аргумент будет иметь смысл, а для других - не имеет смысла. Аргументы основываются на ордерах. Аргумент «Аристотель был человеком, следовательно, он был смертным» зависит от веры в то, что люди смертны. Без этой веры или ее эквивалента вывод не следует. Несколько примеров в тесте зависят от ордеров, но неверно, что все придерживаются одних и тех же предварительных убеждений.

#429

Предпосылка: если легализация снизит текущие затраты на борьбу с наркотиками на одну треть - одну четверть, это может сэкономить 6-9 миллиардов долларов в год.

Призванная гипотеза: легализация наркотиков имеет свои преимущества.

Обратите внимание на преграды в посылке (if, might) и безразличную простоту вытекающей из гипотезы гипотезы. Это следствие или не следствие? Как оценщик рассудит об этом, если он ясно предвидит глубокую боль, травму, беззаконие и разврат, которые будут развязаны легализацией, и поэтому понимает, что 9 миллиардов долларов - всего лишь мелочь?

#710

Предпосылка: теперь Herald рада тому, что Кеннеди может энергично продолжить пересмотр войны в Ираке и того, как вывести нашу страну из нее. Говоря серьезно, я буду воспринимать это изменение взглядов как отрезвляющий признак того, что все мы, где бы мы ни находились в либерально-консервативном континууме, глубоко обеспокоены разрушительными последствиями войны в Ираке и ищем способы работать вместе, чтобы разрешите его как можно скорее.

Взвешенная гипотеза. Все глубоко обеспокоены ущербом, нанесенным войной в Ираке, и ищут способы его решения.

Я не уверен, что все серьезно обеспокоены и стремятся разрешить кризис. Я умоляю нас хорошенько подумать, прежде чем распространять демократическое право голоса на ИИ, если он собирается сделать вывод X, учитывая, что «Политик сказал X». Большинство людей, когда они слышат «X сказал Y», склонны складывать воедино, что на самом деле может иметь в виду, каковы мотивы и осведомленность говорящего, было ли сообщение искажено из-за виноградной лозы. Мы не всегда применяем это критическое мышление в политической сфере, а тем более в научной, но мы преуспеваем в сплетнях и обнаружении обмана. Когда говорит политик, слова хеджирования могут нести больше сообщения, чем «слова содержания».

#773

Предпосылка: в 1969 году более 500 миллионов человек во всем мире сидели перед телевизорами и смотрели зернистые изображения двух мужчин в белых громоздких скафандрах, которые водрузили флаг США на лунный пейзаж с его черным горизонтом.

Вызванная гипотеза. Астронавты "Аполлона" размахивали американским флагом на Луне в 1969 году.

Нет, в посылке не говорилось, что они размахивали флагом. И, конечно же, флаг не развевался сам по себе на Луне. Есть достаточно теорий заговора, в которых мы размахиваем лунными флагами, чтобы кормить троллей. На земле, когда вы устанавливаете флаг, он, конечно, развевается; таким образом, размахивание и установка флагов здесь накладываются друг на друга; не так на Луне. Значение слов имеет значение.

#502

Предпосылка: Для Бехтольшейма, который разработал прототип первой рабочей станции Sun, когда он был аспирантом Стэнфордского университета в Биркенштоке в 1982 году, новая линейка компьютеров под кодовым названием Galaxy - это возвращение к корни компании.

Взвешенная гипотеза: Рабочая станция Sun была создана Бехтольшеймом.

Разработанный прототип не равен «созданному рабочему месту Sun». Разработан прототип - это даже не значит построен первый прототип. И это не значит, что дизайн сохранился в продукте. В данном случае часть дизайна была заменена коммерческими компонентами от 3com. И Бехтольшейм работал не один. Да, кстати, я создал поисковую систему Google.

Наше знание того, как все работает, помогает сделать выводы.

Последний пример:

#575

Предпосылка: спутниковое дистанционное зондирование цвета океана быстро развивалось в течение последних пяти лет, и теперь спутниковые изображения обрабатываются автоматически и становятся доступными через WWW.

Взвешенная гипотеза: Дистанционное зондирование океана разрабатывается.

Прошу прощения, но нет, эта гипотеза не имеет смысла. Самостоятельное вождение быстро развивалось, но еще не развито. «Развитая нация» отличается от «развивающейся нации», даже если последняя быстро развивалась в течение последних пяти лет. Также я надеюсь, что развитые страны тоже развиваются. Извините, напряженные вопросы. Модальные окна имеют значение. Живая изгородь имеет значение.

В заключении

Меня расстраивает то, что времена и модальные формы были сразу отброшены. Значение находится вне слов, да, но оно также находится внутри, и соединение слов и знаков препинания и тому подобное направляют процесс объединения значения воедино. Без таких гидов мы получаем знаменитость, которая находит вдохновение в приготовлении своей семьи и своей собаки.

Почти каждый пример в наборе данных имеет богатую и сложную предпосылку, и читатели могут сделать и делают всевозможные выводы. Гипотеза, напротив, имеет тенденцию смягчаться, ослабляться, демодализоваться. Сторонний наблюдатель, увидев высокие баллы в этом наборе данных и впечатленный сложным языком в предпосылке, которую модели так блестяще усваивают, станет жертвой эффекта Элизы и получит больше способностей и глубины в моделях, у которых нет ничего подобного.

Я не верю, что этот набор данных подходит для оценки способности модели определять следствие. Если вы не согласны, и вы просмотрели и продумали несколько реальных примеров в наборе данных, я хотел бы услышать ваши аргументы.