Мария Яо в ​​социальных чат-ботах опубликовала подробный и доступный обзор наиболее популярных подходов к обработке естественного языка (НЛП), в котором освещаются теории, лежащие в основе этих подходов. Я нашел ее резюме интересным, потому что я лингвист, ориентированный на данные (социолингвистика и корпусная лингвистика), который сотрудничает с учеными-компьютерщиками и программистами для создания инструментов анализа текста. С моей точки зрения, резюме Яо указывает на три важные причины, по которым прогресс в НЛП был таким медленным:

  1. В исследованиях НЛП преобладают очень умные, хорошо разбирающиеся в вычислениях люди, которые знают о языке гораздо меньше, чем компьютеры.
  2. Когда исследователи НЛП сотрудничали со специалистами в области языка, это были лингвисты, которые в конечном итоге исходят из традиции, основанной на философии (а не на науке), и используют интроспекцию и интуицию вместо данных.
  3. Научные подходы к языку, основанные на данных — эмерджентные теории и ориентированные на данные дисциплины, такие как социолингвистика и корпусная лингвистика, — гораздо меньше используются в исследованиях НЛП.

Рассмотрим эту цитату из MIT Media lab (которую цитирует Йоа):

«Язык основан на опыте. В отличие от словарей, которые определяют слова с точки зрения других слов, люди понимают многие основные слова с точки зрения ассоциаций с сенсомоторным опытом».

Это звучит разумно для неспециалиста, но противоречит научному подходу, основанному на эмпирическом наблюдении за реальным миром: на самом деле язык основан на социальном взаимодействии с другими людьми. Существует огромный разрыв между теорией, которая представляет, как работает язык, и теорией, основанной на данных, признающей, что люди изучают язык, находясь рядом с другими людьми. Исследователям НЛП нравятся данные в их инструментах и ​​методах, но они часто работают с языковыми теориями, которые не основаны на данных.

Существует серьезная проблема с отсутствием основанной на данных теории для руководства исследованиями: основанные на интуиции модели, такие как синтаксис/семантика/прагматика, ограничивают исследования. Возможно, вы слышали, что все модели неверны, но некоторые из них полезны, но некоторые модели и неверны, и не очень полезны. В тот момент, когда вы переходите к подходам к языку, основанным на данных, вы должны отказаться от такой идеи, как синтаксис (идея о том, что за использованием языка стоит скрытый код), потому что она не соответствует данным. В реальном мире у языка нет встроенной системы или кода — у него есть эмерджентная структура: существуют сотни структурированных способов общения по всему миру, которые медленно, но постоянно меняются и развиваются по мере того, как мы говорить и писать, и, в конечном счете, на основе огромного количества социальных взаимодействий.

Может быть больше пользы в модели, основанной на данных, которая рассматривает язык как многоуровневое целое, где каждый уровень связан:

  1. Лексический: язык на уровне слов.
  2. Лексико-грамматический: язык на уровне типов слов.
  3. Тематический: язык на уровне темы или сообщения.

С этой моделью, какой бы неправильной она ни была, у нас по крайней мере есть что-то практичное и полезное. Мы можем продумать, как человек распознает что-то вроде жанра, например. готика (безлюдные места, семейные тайны, ужас и т. д.). Но мы также можем использовать машины для той же классификации: на лексическом уровне, рассматривая наиболее часто встречающиеся слова (его, его, был и др.), либо на уровне лексико-грамматики через маркеры установки (сообщение о событии, личные местоимения, страх и т. д.). И поскольку видно, что эти уровни связаны как единое целое, теперь у нас есть несколько функций, которые можно использовать в качестве крючков, чтобы машины могли лучше справляться с реальными задачами, такими как сортировка миллионов документов для поиска релевантных, классификация социальных сетей. сообщения для обнаружения потенциальной опасности или понимания методов онлайн-вербовки воинствующих экстремистов.

Текущая работа над НЛП, будь то коммерческие задачи, такие как понимание отношения потребителей, или амбициозные цели, такие как общий лингвистический ИИ (компьютеры, которые могут «читать» как люди), потребует теории языка, основанной на данных. Без этого вычислительные эксперты в НЛП сводятся к техникам: они глубоко понимают свои инструменты, но не понимают, где и что эти инструменты следует применять.

Хотя есть надежда. В статье Яо последний из четырех подходов к НЛП, которые она резюмирует, называется «Интерактивные подходы к обучению». Она цитирует профессора информатики из Стэнфорда Перси Лянга:

«Язык по своей сути интерактивен… Как мы представляем знания, контекст, память? Может быть, нам следует сосредоточиться не на создании лучших моделей, а на лучшей среде для интерактивного обучения».

Все, что мы делаем в языке — выбираем конкретные слова, которые имеют контекстно-зависимые эффекты, тонко формируем позицию с помощью стилевых движений — является результатом миллиардов разумных человеческих взаимодействий с течением времени. И поэтому, если мы когда-нибудь надеемся искусственно воспроизвести что-то из силы и полезности человеческого лингвистического интеллекта, нам следует помнить, что интеллект характеризуется социальностью и взаимодействием.