Введение в обработку естественного языка
Понимание языка начинается с проверки словаря
Сегодня я случайно пролистал Оксфордский словарь английского языка, пытаясь свести язык к «первому принципу».
Сначала я проверил то, что ребенок, вероятно, узнает в возрасте 3 лет - значение «хорошо» - «быть желанным или одобренным».
Сделав вид, что не понимает, что такое «желание», я проверил еще раз - «Сильно желаю или чего-то хочу».
Опять же, что такое «желание»? «Почувствуйте или выразите сильное желание».
О боже, это волшебная круговая привязка. Я застрял и могу только постоянно переключаться между «желанием» и «желанием». Из словаря невозможно по-настоящему понять значение слов «желание» и «желание».
Вы можете не сразу увидеть это, если проверите более сложное слово, потому что его можно объяснить более простым словом. То же и для изучения иностранного языка. Но если вы отметите самое простое слово, всплывет круговая ссылка или даже самооценка. Возьмем еще один пример: значение «значение» читается «что подразумевается под словом, текстом, концепцией или действием».
Значение присваивается нами
Единственное объяснение состоит в том, что мы придаем значение словам. Мы думали, что понимаем их, потому что их знают все, но на самом деле мы просто запоминаем присвоенное значение, но не из-за того, как оно написано (ну, иногда это правда, поскольку есть некоторые компоненты слов, которые вы знали). Само написание в большинстве случаев не имеет значения.
Как только мы придаем значение слову, мы узнаем значения других. Это похоже на сеть слов. Например, если мы понимаем «желание», мы знаем «желание» и «добро». Даже если мы не знаем значения слова «желание», мы все равно знаем, что «желание» и «добро» имеют аналогичный контекст с «желанием», если они встречаются в одном и том же контексте.
Хотя значение слова приписывается, мы можем догадаться об этом, наблюдая за контекстом. Это естественно для человека в понимании языка. Это связано с важной концепцией - Гипотеза распределения (слова, встречающиеся в одном контексте, с большей вероятностью имеют одинаковое значение), которая заложила основу обработки естественного языка (NLP).
Это приблизительная идея встраивания слов в НЛП. Причудливый термин «встраивание слов» - это просто то, что мы запекаем значение в серии чисел (вектор), которые компьютер может понять и может использовать для последующих задач, таких как анализ тональности.
Machine может узнать, как мы присваиваем значение
Возвращаясь к теме - мы это понимаем? Ни один из нас, ни компьютер. Мы этого не понимаем, мы придаем этому значение и знаем «хорошие» связи с «желанием» и «желанием». Компьютер тоже не может понять написание «хорошо», но он может выучить наше распределение заданий - «хорошо» похоже на «желание» и «желание». В конце концов, присвоение значений по-прежнему является собственностью человека.
P.S. У китайцев может быть немного другая история, потому что некоторые развиваются из пиктограмм.