В настоящее время мы делаем огромный прогресс в области искусственного интеллекта. С появлением искусственных нейронных сетей постоянно открываются новые удивительные границы. Разработка идет настолько быстро, что в целом никаких серьезных технических ограничений не видно. В свете этих событий в этой статье блога вновь рассматривается вопрос-ответ (QA). Наша цель — отойти от традиционных подходов к контролю качества, когда решения обычно опираются на структурированную базу знаний (KB). Примерами таких систем являются IBM Watson, WolframAlpha или даже Siri. В своей основе все эти системы, подобные чат-ботам, обычно используют некоторые структурированные базы знаний, такие как база данных SQL, тройное хранилище RDF, база данных Graph или XML-файлы. Их главным достижением является «просто» перевод вопросов естественного языка в соответствующие запросы машинного языка без какого-либо использования высшей «семантики» и интеллекта. Что, если мы пропустим этот промежуточный этап перевода и попытаемся отвечать на человеческие запросы напрямую с помощью машин? Точнее, можем ли мы создать систему, которую можно научить читать как люди и отвечать на произвольные вопросы по отрывкам текста? Это может звучать как научно-фантастический фильм. Но, безусловно, с таким подходом мы будем на шаг ближе к высшей цели ИИ.

Классические методы обеспечения качества

В конечном счете, все является формой контроля качества — все человеческие проблемы могут быть отлиты в этот формат. В рамках компьютерных наук QA является междисциплинарной областью анализа текста, поиска информации и обработки естественного языка (NLP). Его цель — автоматически отвечать на вопросы, заданные пользователями-людьми, на естественном языке. QA может иметь любое измерение и семантическую сложность. От простых вопросов о числах, датах и ​​именах по грамматическим ссылкам до более абстрактных семантических вопросов, таких как «В чем смысл жизни?», QA по умолчанию не имеет ограничений. Из-за своего широкого охвата это одна из самых сложных задач в области интеллектуального анализа текста: синтаксический анализ, обнаружение спама в электронных письмах, анализ настроений и тому подобное были успешно решены в последние годы, но общий контроль качества по-прежнему считается одним из частично нерешенные задачи Text Mining. Тем не менее, развитие QA тесно связано с развитием ИИ.

Традиционно задача обеспечения качества решалась методами НЛП. В своей основе, как правило, используется структурированный источник знаний. Основное рабочее направление заключалось в преобразовании входящего вопроса пользователя, написанного на естественном языке, в формальный запрос, который может быть обработан машиной. Это картирование было выполнено с двухэтапным подходом. Во-первых, путем извлечения созданных вручную функций из необработанного вопроса, как правило, с помощью набора слов и их TF-IDF. Затем, классифицируя эти функции, как правило, с помощью некоторых линейных классификаторов, таких как машины опорных векторов (SVM), для создания формального запроса (в SQL, SAPRQL или XQuery) для извлечения желаемой информации из базовой базы знаний.

Текущие тенденции в области обеспечения качества, подобного человеку

Со времен Глубокой революции в этой области произошел драматический сдвиг. Мы можем наблюдать смену тенденций в исследовательском сообществе и промышленности. Нейронные сети с большим успехом использовались в самых разных задачах НЛП и в основном заменили традиционные методы, установив новый уровень техники. Утомительное проектирование конкретных задач было заменено преобразованием словного вектора, что объединило вышеупомянутый двухэтапный подход в один унифицированный сквозной обучаемый процесс.

Благодаря использованию векторов слов автоматический контроль качества бьет новые рекорды. Нейронные сети эволюционируют в системы, которые учатся читать текст и «понимают» его содержание, чтобы его можно было использовать для дальнейших задач — так же, как люди, когда они читают экзаменационную работу и могут отвечать на произвольные вопросы по ней. В частности, для обеспечения качества мы фокусируемся на следующей настройке: если текст и вопрос написаны на чистом естественном языке, цель состоит в том, чтобы найти ответ из необработанного текста. Другими словами, задача состоит в том, чтобы найти подпоследовательность, содержащую ответ на вопрос. Мы называем этот класс задач человекоподобным контролем качества, т. е. контролем качества непосредственно на отрывках текста, а не на любой (полу-) структурированной базе знаний.

Именно этот подход кажется многообещающим для будущего полноценного ИИ. Такая интеллектуальная независимая от предметной области система может открыть новые горизонты в том, как сегодня работают организации. Он может изменить основы систем связи, используемых в настоящее время в фирмах, страдающих от асимметричного распределения информации. Его можно применять в любом бизнес-подразделении, где уходит огромное количество времени на поиск правильного ответа из текстовых архивов. Так же, как и в случае с отделами кадров, где существующие бизнес-процессы, основанные на правилах, не могут полностью охватить семантику естественного языка. Представьте себе все возможности, связанные с экономией рабочей силы, затрачиваемой на чтение большого количества документов с помощью такой человекоподобной системы контроля качества. Люди могут, наконец, начать сосредотачиваться на том, что действительно важно.

Вы согласны или не согласны с моими мыслями? Хотите поделиться своими историями? Пожалуйста, оставьте комментарий ниже!