Введение в обработку естественного языка (NLP)

Компьютеры хорошо обрабатывают числовые значения из электронных таблиц. Но самый распространенный способ общения среди людей - речь (предложения, составленные из слов). НЛП - молодая научная дисциплина. Существует огромный простор для исследований и возможностей трудоустройства.

В 1950 году Алан Тьюринг опубликовал статью под названием «Вычислительные машины и интеллект», которую сегодня называют тестом Тьюринга. Это ставит вопрос о том, может ли компьютерная программа обмануть человека, заставив его думать, что это человек, посредством разговора. До 1980-х годов НЛП основывалось на сложном наборе правил, написанных от руки. В конце 1980-х годов в НЛП произошла революция, когда люди начали использовать модели машинного обучения для обработки языка вместо подхода, основанного на правилах. Доступность вычислительной мощности также способствовала тому, что этот подход превзошел подход, основанный на правилах.

Если вы планируете поехать за границу для получения степени магистра, в большинстве колледжей требуется сдать экзамен GRE. ETS - это компания, которая управляет и проводит этот экзамен. Один из их практических инструментов использует НЛП для исправления ваших письменных ответов. Эта же компания проводит экзамен TOEFL, который снова использует программное обеспечение (основанное на НЛП) и человека для исправления ваших письменных ответов.

Некоторые из самых ранних алгоритмов обучения, такие как деревья решений, вырабатывали жесткие правила if и then. Но с течением времени исследователи все больше отдавали предпочтение статистическим моделям, которые принимают вероятностные решения относительно того, что слово или предложение должны означать или звучать, вместо решений, основанных на правилах.

НЛП - это поддомен ИИ (искусственного интеллекта).

Это дает компьютерам возможность понимать человеческий язык. Его можно использовать для классификации обзоров и обобщения текста. Мы, люди, интерпретируем строки текста, используя 3 правила: синтаксис, семантика и прагматика. В настоящее время системы НЛП, такие как модели распознавания речи, полагаются на такие статистические модели, чтобы предсказать, какие слова, вероятно, были произнесены пользователем, который надежнее.

Класс статистических моделей, называемых глубокими нейронными сетями, был ключевым фактором большинства недавних успехов НЛП в самых разных задачах, таких как машинный перевод, автоматическое суммирование и анализ настроений. В сегодняшнем мире с открытым исходным кодом такие инструменты, как PyTorch, colab и различные наборы текстовых данных, позволили людям во всем мире создавать мощные приложения для использования NLP, которые решают реальные проблемы.

Синтаксис: он определяет правила языка, такие как структура слова и грамматика. Естественный язык намного сложнее, чем формальный язык, используемый для программирования. Вам нужно соблюдать множество правил.

Семантика: описывает значение слов или предложений.

Прагматика: имеет дело со связью слов в целом, пониманием контекста.

Google выпустил BERT (представление двунаправленного кодировщика от Transformers) почти полтора года назад. Он обучается с использованием как предыдущего, так и следующего слова для предсказания появления слова. Это значительно сокращает время обучения, необходимые данные и вычислительные ресурсы.

WORD2VEC - популярный инструмент для обучения языковой модели на основе текстовых данных. Он создает представления слов, также называемые векторами слов. Он сопоставляет каждый текст в обучающих данных с вектором, который представляет какой-то аспект его значения. Он обучен на большой немаркированной свалке. Затем эта модель используется для помеченных данных для конкретной задачи, такой как анализ настроений. Проблема в том, что они не принимают во внимание контекст. Кроме того, сочетание слов будет означать нечто иное, чем объединенные значения каждого из отдельных слов. Это тоже было проблемой. Это способствовало использованию рекуррентных нейронных сетей для языкового моделирования.

Теперь векторы создаются на основе всего окружающего контекста. Трансформаторная сеть затмила все типы рекуррентных нейронных сетей. Он состоит из кодировщика и декодирующей сети. Входная последовательность кодируется путем оптимизации набора весов, а не просто создания одного вектора. Оптимизация выполняется с помощью градиентного спуска. Один из таких блоков называется блоком внимания. В модели есть несколько блоков внимания. Каждый блок преобразуется с помощью матричных операций. Закодированное предложение из N слов выводит N тензоров. Декодер использует эти тензоры для вывода последовательности слов. Нам просто нужно точно настроить последний уровень BERT на основе варианта использования, чтобы использовать его для нашей задачи.

Google потребовалось 4 дня, чтобы обучить BERT с помощью нескольких облачных TPU (Tensor Processing Unit), чтобы обучить его на нескольких языках.

Автоматическое суммирование выполняется путем встраивания кластеров после клонирования модели BERT (загрузки предварительно обученных значений веса). Количество кластеров будет равно количеству предложений, которые вы хотите получить в выводе (сводке). В каждом кластере есть семантически похожие предложения, значение которых может быть выражено одним предложением-кандидатом. Выбирается это предложение-кандидат, векторное представление которого находится ближе к центру кластера. Расположение предложений в резюме зависит от расположения в связанных кластерах.

Вот и все. Надеюсь, вам понравилась эта статья и вы узнали много нового о НЛП.

Введение в обработку естественного языка (NLP)

Вопросы по теме