Эта статья является второй в серии из двух статей об истории НЛП, рассказанной в контексте пяти исследовательских работ. Действие происходит в середине 1970-х. Чтобы просмотреть первую статью, нажмите здесь.

Разработка ресурсов корпуса

Начавшаяся в конце 70-х академическая эра, ориентированная на отношения, заложила основу для грамматико-логической стадии НЛП. Поскольку исследователи искали логические представления значения и знания, этот этап привел к развитию многих формальных грамматик, определяемых Мэгги Джонсон и Джули Зелински как набор правил, по которым строятся действительные предложения в языке. Эти грамматики также улучшили вычислительный анализ из-за их контекстно-свободной природы и способности генерировать все потенциальные грамматические строки в формализованном языке.

Наряду с распространением грамматик увеличилось количество ресурсов, доступных как для исследований, так и для коммерческих целей, в основном из-за резкого увеличения доступного машиночитаемого текста, поскольку все больше нашей жизни проводилось на компьютере. Фактически, это развитие ресурсов продолжалось до конца века, особенно в условиях растущего государственного финансирования. По мере того, как статистическая обработка языка набирала популярность, корпусные данные рассматривались как большое благо. Массивные базы данных, такие как WordNet (лексическая) и Penn Treebank (синтаксическая), вышли на первый план в 1985 и 1989 годах соответственно.

[3] «Building a Large Annotated Corpus of English: The Penn Treebank», опубликованная в 1993 г. Митчеллом П. Маркусом и др., описывает рабочий процесс исследователей. который построил Penn Treebank из более чем 4,5 миллионов слов американского английского. Создатели Treebank, содержащие 36 тегов части речи (POS), попытались сократить часть избыточности тегов, обнаруженную в переднем коричневом корпусе. Эта статья, хотя и не является глубокой в ​​статистическом или вычислительном отношении, примечательна тем, что в ней подробно обсуждаются многочисленные факторы, которые необходимо учитывать в задаче аннотирования, особенно в такой области. Treebank сыграл важную роль в различных исследовательских начинаниях, таких как синтаксический анализ неоднозначности и дизайн лексики. Его постоянное использование является свидетельством ценности корпусных ресурсов и их роли в НЛП.

"ЧИТАТЬ ДАЛЕЕ"