Facebook и CMU представляют TaBERT для понимания запросов к табличным данным

Команда исследователей из Университета Карнеги-Меллона и Facebook AI недавно представила табличную модель данных TaBERT. TaBERT, созданная на основе популярной модели BERT NLP, является первой моделью, предварительно обученной для изучения представлений как для предложений на естественном языке, так и для табличных данных, и ее можно подключить к нейросемантическому синтаксическому анализатору в качестве универсальный кодировщик. В ходе экспериментов нейросемантические парсеры на базе TaBERT показали улучшение производительности в сложном тесте WikiTableQuestions и продемонстрировали конкурентоспособную производительность на наборе данных для преобразования текста в SQL Spider.

Поскольку Google Brain представил в 2018 году BERT (B двунаправленных электронных кодировщиков R от T преобразователей), большие - масштабная предварительно обученная языковая модель достигла результатов SOTA по широкому кругу задач НЛП. Однако BERT и аналогичные предварительно обученные языковые модели обычно обучаются на тексте на естественном языке произвольной формы и не приспособлены для решения таких задач, как семантический анализ структурированных данных в типичных таблицах базы данных.

Например, как предварительно обученная и отрегулированная языковая модель ответит на вопрос: «В каком городе [автогонщик] Петр последний раз финишировал на 1-м месте?» когда дана соответствующая таблица данных со столбцами для года, места проведения, должности и события? Модель должна понимать набор столбцов в таблице (также называемую схемой) и точно согласовывать вводимый текст со схемой для обоснования правильного ответа. TaBERT был предварительно обучен на параллельном корпусе из 26 миллионов таблиц и их контекстной информации, чтобы определить связи между табличными данными и соответствующим текстом на естественном языке.

Facebook заявляет, что в отличие от систем, которые полагаются на представление входных высказываний и схемы таблицы, TaBERT может быть подключен к нейронному семантическому синтаксическому анализатору в качестве универсального кодировщика для вычисления представлений как для высказываний, так и для таблиц. Снимок содержимого таблицы сопряжения сначала создается на основе входного высказывания, а затем преобразователь кодирует каждую строку снимка в векторные кодировки высказываний и маркеров ячеек. Поскольку эти векторы на уровне строк вычисляются независимо, исследователи реализовали механизм вертикального самовнимания, который работает с вертикально выровненными векторами из разных строк, чтобы обеспечить поток информации по их представлениям ячеек.

В экспериментах TaBERT применялся к двум различным парадигмам семантического синтаксического анализа: классической настройке контролируемого обучения для набора данных SPIDER text-to-SQL и сложному тесту производительности WikiTableQuestions со слабо контролируемым обучением. Команда заметила, что системы, дополненные TaBERT, превзошли аналоги, использующие BERT, и достигли высочайшего уровня производительности на WikiTableQuestions. На Spider производительность была близка к показателям на вершине таблицы лидеров.

Внедрение TaBERT является частью постоянных усилий Facebook по разработке помощников на основе искусственного интеллекта, которые улучшают взаимодействие человека с машиной. В сообщении в блоге Facebook говорится, что этот подход может позволить цифровым помощникам в устройствах, таких как интеллектуальные колонки Portal, повысить точность вопросов и ответов, когда ответы скрыты в базах данных или таблицах.

Статья TaBERT: предварительная подготовка к совместному пониманию текстовых и табличных данных доступна в Facebook Content Delivery Network.

Журналист: Фаню Цай | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор решений искусственного интеллекта в Китае в ответ на пандемию COVID-19 - 87 тематических исследований от 700+ поставщиков ИИ

В этом отчете предлагается взглянуть на то, как китайское правительство и владельцы бизнеса использовали технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Думаете о том, чтобы внести свой вклад в синхронизированную проверку? Новая колонка Поделитесь моими исследованиями от Synced приглашает ученых поделиться своими научными открытиями с глобальными энтузиастами искусственного интеллекта.

Facebook и CMU представляют TaBERT для понимания запросов к табличным данным

Вопросы по теме