Введение в обработку естественного языка

Понимание языка начинается с проверки словаря

Сегодня я случайно пролистал Оксфордский словарь английского языка, пытаясь свести язык к «первому принципу».

Сначала я проверил то, что ребенок, вероятно, узнает в возрасте 3 лет - значение «хорошо» - «быть желанным или одобренным».

Сделав вид, что не понимает, что такое «желание», я проверил еще раз - «Сильно желаю или чего-то хочу».

Опять же, что такое «желание»? «Почувствуйте или выразите сильное желание».

О боже, это волшебная круговая привязка. Я застрял и могу только постоянно переключаться между «желанием» и «желанием». Из словаря невозможно по-настоящему понять значение слов «желание» и «желание».

Вы можете не сразу увидеть это, если проверите более сложное слово, потому что его можно объяснить более простым словом. То же и для изучения иностранного языка. Но если вы отметите самое простое слово, всплывет круговая ссылка или даже самооценка. Возьмем еще один пример: значение «значение» читается «что подразумевается под словом, текстом, концепцией или действием».

Значение присваивается нами

Единственное объяснение состоит в том, что мы придаем значение словам. Мы думали, что понимаем их, потому что их знают все, но на самом деле мы просто запоминаем присвоенное значение, но не из-за того, как оно написано (ну, иногда это правда, поскольку есть некоторые компоненты слов, которые вы знали). Само написание в большинстве случаев не имеет значения.

Как только мы придаем значение слову, мы узнаем значения других. Это похоже на сеть слов. Например, если мы понимаем «желание», мы знаем «желание» и «добро». Даже если мы не знаем значения слова «желание», мы все равно знаем, что «желание» и «добро» имеют аналогичный контекст с «желанием», если они встречаются в одном и том же контексте.

Хотя значение слова приписывается, мы можем догадаться об этом, наблюдая за контекстом. Это естественно для человека в понимании языка. Это связано с важной концепцией - Гипотеза распределения (слова, встречающиеся в одном контексте, с большей вероятностью имеют одинаковое значение), которая заложила основу обработки естественного языка (NLP).

Это приблизительная идея встраивания слов в НЛП. Причудливый термин «встраивание слов» - это просто то, что мы запекаем значение в серии чисел (вектор), которые компьютер может понять и может использовать для последующих задач, таких как анализ тональности.

Machine может узнать, как мы присваиваем значение

Возвращаясь к теме - мы это понимаем? Ни один из нас, ни компьютер. Мы этого не понимаем, мы придаем этому значение и знаем «хорошие» связи с «желанием» и «желанием». Компьютер тоже не может понять написание «хорошо», но он может выучить наше распределение заданий - «хорошо» похоже на «желание» и «желание». В конце концов, присвоение значений по-прежнему является собственностью человека.

P.S. У китайцев может быть немного другая история, потому что некоторые развиваются из пиктограмм.