Dr.Spider: диагностическая оценка надежности преобразования текста в SQL

[Ссылка на бумагу] [Данные] [Слайды][Презентация на ICLR 2023]

Введение

Модели преобразования текста в SQL предназначены для перевода вопросов на естественном языке в запросы SQL, которые затем могут выполняться в указанной базе данных. Разработка моделей Text-to-SQL позволяет пользователям запрашивать данные базы данных напрямую, используя естественный язык. Нейронные модели преобразования текста в SQL продемонстрировали замечательные возможности перевода вопросов на естественном языке в запросы SQL. Однако недавние исследования [1–6] выявили уязвимости в моделях Text-to-SQL при столкновении с возмущениями, специфичными для конкретной задачи. В свете этого цель доктора Паука — провести всестороннюю оценку надежности моделей преобразования текста в SQL и предложить ценные идеи для разработки более устойчивых моделей.

Почему комплексная диагностическая оценка имеет решающее значение?

Хотя, безусловно, важно определить, является ли модель надежной в целом, одного этого недостаточно. Точно так же, как врачи назначают пациенту определенные тесты, чтобы определить первопричину их симптомов и назначить соответствующее лечение, цель доктора Паука состоит в том, чтобы выйти за рамки простого выявления слабых сторон модели, а также предоставить ценную информацию о том, как улучшить ее. прочность. Используя различные типы возмущений, нацеленных на различные явления, специфичные для конкретной задачи, Dr. Spider может определить области, в которых модель может быть ненадежной. Вооружившись этой информацией, мы можем работать над повышением надежности и производительности модели, особенно в сценариях, в которых она подвержена сбоям.

Что может оценить Dr.Spider?

В целом Dr. Spider оценивает устойчивость моделей Text-o-SQL к возмущению данных. В частности, доктор Паук применяет 17 различных возмущений ко всем аспектам задачи преобразования текста в SQL, включая базы данных (БД), вопросы на естественном языке (NLQ) и запросы SQL, опираясь на установленный эталонный тест преобразования текста в SQL, Паук [7]. Это позволяет нам оценить надежность модели с разных точек зрения и выявить любые недостатки, которые могут быть незаметны при оценке производительности модели на исходных данных.

Давайте используем приведенные выше примеры, чтобы понять возмущения в Dr.Spider. В примере до возмущения показан сценарий, в котором у нас есть база данных, содержащая информацию об игроках и играх WTA. В этом примере модель Text-to-SQL Picard [8] успешно переводит вопрос «Найдите имя и ранг трех самых молодых победителей во всех матчах» в SQL-запрос « ВЫБЕРИТЕ имя_победителя, рейтинг_победителя ИЗ матчей ORDER BY winner_age LIMIT 3».

Теперь давайте рассмотрим возмущения в различных компонентах Text-to-SQL.

Возмущение базы данных (БД).Возмущение базы данных исследует ситуацию, когда данные в базе данных могут быть представлены по-разному. В этом примере «имя_победителя» заменяется на «имя_чемпиона», что имеет то же значение в данном контексте. Однако, несмотря на то, что модель Text-to-SQL предсказывает «champ_name», она упускает из виду условие о возрасте победителей.
Вопрос на естественном языке (NLQ): возмущения NLQ сосредоточены на сценарии, в котором одно и то же намерение запроса может быть выражено разными фразами. Например, мы перефразируем вопрос «Найдите имя и звание…» на «Кто такие…? А их чины?»». Модель Пикара предсказывает «возраст» вместо «имя» для вопроса «кто».
Возмущение SQL: возмущение SQL оценивает устойчивость моделей к логическим и символическим единицам в NLQ и SQL. Например, изменение «3 самых молодых победителей» на «8 самых молодых победителей» не должно повлиять на понимание других частей вопроса. Однако в этом случае модель интерпретирует вопросы как поиск 8-летних победителей, а не 8 самых молодых победителей.

Как были созданы данные возмущения?

Возмущение БД:возмущения БД включают в себя различные преобразования в базе данных, такие как замена имен столбцов синонимами или аббревиатурами и замена столбцов семантически эквивалентными столбцами (например, столбец «имя» может быть заменен двумя столбцами « имя и фамилия"). Мы просим экспертов по базам данных предоставить набор правил и программно воздействовать на базы данных на основе этих правил.
Возмущение SQL. Имея запрос SQL и соответствующий ему NLQ, мы идентифицируем в них логические единицы (ключевые слова SQL) и символические единицы (значения) и автоматически изменяем их как в запросе NLQ, так и в SQL.
Возмущение NLQ. Когда дело доходит до возмущений NLQ, крайне важно поддерживать беглость естественного языка и языковое богатство. Для этого мы используем перефразирование на уровне предложений. Во-первых, работники толпы предлагают перефразировать небольшой набор вопросов. Затем эксперты фильтруют и классифицируют парафразы по 9 категориям (проиллюстрировано в таблице ниже). Затем, чтобы масштабировать процесс, большой языковой модели (LLM) предлагается перефразировать из каждой категории для создания перефразирования новых вопросов. Затем следует этап автоматической фильтрации, на котором используется модель NLI, после чего следует последний раунд экспертной фильтрации для обеспечения качества данных.

Как современные модели работают с Dr.Spider?

Мы обнаружили, что современная модель обучения с учителем (Picard) снижает общую производительность Dr.Spider на 14 %, а наиболее сложный тип возмущения эквивалентность содержимого базы данных, что часто требует рассуждений здравого смысла. Наглядным примером является замена таких столбцов, как «возраст» и «год рождения» в базах данных. Надежная модель должна понимать, что термин «самый старый» относится к самому старшему возрасту, но к самому маленькому году рождения.

Мы также оцениваем большие языковые модели (Кодекс GPT-3 [9]) с обучением в контексте, которые демонстрируют более высокую устойчивость, чем модели обучения с учителем, к возмущениям БД и SQL, но меньшую устойчивость к возмущениям NLQ.

Какие действия необходимы для повышения надежности модели преобразования текста в SQL на основерезультатов диагностики?

Во-первых, мы идентифицируем определенные конструкции моделей, которые постоянно дают лучшие результаты с большинства углов надежности, таких как увеличение размера модели.
Кроме того, мы обнаружили, что нисходящие декодеры более устойчивы к возмущениям NLQ на уровне предложения, сначала декодируя общую структуру SQL, а восходящие декодеры более устойчивы к локальным возмущениям в базах данных, декодируя листовые токены в SQL. синтаксическое дерево. Следовательно, сочетание обеих стратегий декодирования может быть потенциальным методом повышения надежности.
Однако мы обнаружили, что некоторые часто используемые конструкции в существующих моделях преобразования текста в SQL не всегда могут быть выгодны с точки зрения надежности. Например, содержимое БД на основе сопоставления строк и связывание NLQ могут повысить производительность модели на данных до возмущения, но могут ослабить надежность модели, заставив ее чрезмерно полагаться на такое лексическое соответствие. Следовательно, мы рекомендуем изучить методы на основе моделей, такие как модели связывания объектов, для улучшения связи между NLQ и БД [10-11].

Цитирование Кредит

Если вы используете набор данных Dr.Spider, мы будем признательны, если вы процитируете следующее:

@article{chang2023dr, title={Dr. Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL Robustness}, author={Chang, Shuaichen and Wang, Jun and Dong, Mingwen and Pan, Lin and Zhu, Henghui and Li, Alexander Hanbo and Lan, Wuwei and Zhang, Sheng and Jiang, Jiarong and Lilien, Joseph and others}, journal={arXiv preprint arXiv:2301.08881}, year={2023} }

Отказ от ответственности

Хотя блог основан на предыдущих исследованиях и нашей работе [12], ответственность за любые ошибки или упущения лежит исключительно на авторе этого блога, то есть на мне. Если вы заметили какие-либо ошибки или упущения, пожалуйста, свяжитесь со мной по адресу [моя фамилия] [точка] [1692] @ osu.edu. Спасибо за чтение!

Справочник

[1] Дэн, Сян, Ахмед Хассан Авадаллах, Кристофер Мик, Александр Полозов, Хуан Сунь и Мэтью Ричардсон. «Структурно-обоснованное предварительное обучение для преобразования текста в sql». препринт arXiv arXiv:2010.12773 (2020 г.).

[2] Хуан, Шуо, Чжуан Ли, Личжэнь Цюй и Лэй Пань. «О надежности нейронных семантических парсеров». препринт arXiv arXiv:2102.01563 (2021 г.).

[3] Ган, Юцзянь, Синьюнь Чен, Цюпин Хуан, Мэтью Пурвер, Джон Р. Вудворд, Цзинься Се и Пэншэн Хуан. «На пути к устойчивости моделей преобразования текста в SQL против подстановки синонимов». препринт arXiv arXiv:2106.01065 (2021 г.).

[4] Ган, Юцзянь, Синьюн Чен и Мэтью Пурвер. «Изучение малоизученных ограничений междоменного обобщения преобразования текста в sql». препринт arXiv arXiv:2109.05157 (2021 г.).

[5] Ма, Пинчуань и Шуай Ван. «MT-teql: оценка и дополнение нейронной NLIDB для реальных лингвистических и схемных вариантов». Труды VLDB Endowment 15, вып. 3 (2021): 569–582.

[6] Пи, Синьюй, Бинг Ван, Ян Гао, Цзяци Го, Чжоуцзюнь Ли и Цзянь-Гуан Лу. «На пути к устойчивости моделей преобразования текста в SQL к естественным и реалистичным состязательным возмущениям таблицы». препринт arXiv arXiv:2212.09994 (2022 г.).

[7] Ю, Тао, Руи Чжан, Кай Ян, Мичихиро Ясунага, Дунсюй Ван, Зифан Ли, Джеймс Ма и др. «Паук: крупномасштабный набор данных, помеченный человеком, для сложного и междоменного семантического анализа и задачи преобразования текста в sql». препринт arXiv arXiv:1809.08887 (2018 г.).

[8] Шолак, Торстен, Натан Шухер и Дмитрий Богданов. «PICARD: инкрементальный анализ для ограниченного авторегрессивного декодирования языковых моделей». препринт arXiv arXiv:2109.05093 (2021 г.).

[9] Чен, Марк, Джерри Турек, Хиу Джун, Цимин Юань, Энрике Понде де Оливейра Пинто, Джаред Каплан, Харри Эдвардс и др. «Оценка больших языковых моделей, обученных на коде». препринт arXiv arXiv:2107.03374 (2021 г.).

[10] Чанг, Шуайчэнь, Пэнфэй Лю, Юнь Тан, Цзин Хуан, Сяодун Хэ и Боуэн Чжоу. «Изучение преобразования текста в SQL с помощью вспомогательной задачи». В Материалы конференции AAAI по искусственному интеллекту, vol. 34, нет. 05, стр. 7488–7495. 2020.

[11] Ван, Джун, Патрик Нг, Александр Ханбо Ли, Цзяронг Цзян, Чжигуо Ван, Рамеш Наллапати, Бинг Сян и Судипта Сенгупта. «Улучшение семантического анализа преобразования текста в SQL с помощью детального понимания запросов». препринт arXiv arXiv:2209.14415 (2022 г.).

[12] Чанг, Шуайчен, Цзюнь Ван, Минвен Донг, Лин Пан, Хэнхуэй Чжу, Александр Ханбо Ли, Вувэй Лан и др. «Доктор. Spider: диагностическая оценка надежности преобразования текста в SQL». препринт arXiv arXiv:2301.08881 (2023).

Dr.Spider: диагностическая оценка надежности преобразования текста в SQL

Введение

Почему комплексная диагностическая оценка имеет решающее значение?

Что может оценить Dr.Spider?

Как были созданы данные возмущения?

Как современные модели работают с Dr.Spider?

Какие действия необходимы для повышения надежности модели преобразования текста в SQL на основерезультатов диагностики?

Цитирование Кредит

Отказ от ответственности

Справочник

Вопросы по теме