Если вы впервые знакомитесь с моей серией Изучение НЛП, пожалуйста, ознакомьтесь с моей вводной статьей здесь.



Добро пожаловать! Теперь, продолжая серию, я поделюсь некоторыми своими заметками о (в основном) маркировке POS. Я хотел бы особенно поблагодарить г-на Сачина Кумара С, сэра из CEN, Амриту Коимбаторе за то, что она прошла этот курс для меня в этом семестре, и некоторая информация и изображения, собранные здесь, взяты из ресурсов и материалов, предоставленных или созданных им.

Тегирование POS (части речи):

Это самый низкий уровень синтаксического анализа. Это задача присвоения тегов частей речи словам.

Этот тип маркировки последовательностей также можно увидеть при маркировке генетических последовательностей при анализе генома.

Для предложения, скажем, «Похоже на шоколад», POS-теги будут следующими:

PRP — личное местоимение, VB — глагол, IN — предлог или подчинительный союз, N — существительное и т. д.

Открытые и закрытые занятия:

Открытые классы — это классы, для которых часто добавляются новые слова. Пример: существительные, глаголы и т. д. Принимая во внимание, что в закрытых классах у них есть заранее определенный набор слов, которые относятся к этим классам, например, статьи.

В тегах POS существует проблема неоднозначности, поскольку слова часто имеют более одного тега POS. Например, «нравится» можно присвоить как теги IN, так и теги VB.

Типы тегов могут быть двух типов: крупнозернистые и мелкозернистые.

  1. Типы грубых тегов включают существительные, глаголы, прилагательные и т. д.

2. Мелкозернистые включают существительное-собственное-единственное число, глагол-прошедшее время, прилагательное-простое и т. д.

Способы поиска тегов POS:

  1. Поточечное прогнозирование — прогнозирование каждого тега токена по отдельности с помощью классификатора.
  2. Модель генеративной последовательности - с использованием HMM (скрытая марковская модель)
  3. Дискриминативные модели последовательностей — CRF (условное случайное поле), структурированное предсказание и т. д.

HMM для POS-маркировки:

Наблюдаемые состояния — слова в заданной последовательности слов/предложении.

Скрытые/ненаблюдаемые состояния — POS-теги

Для расчета вероятности, связанной с определенной последовательностью тегов, в HMM используются вероятности перехода и выброса.

  1. Происходит переход из одного скрытого состояния в другое, или скрытые состояния имеют переход из одного состояния в следующее скрытое состояние. При переходе из одного состояния в другое связана определенная вероятность, известная как вероятность перехода.
  2. Эмиссия соответствует генерации токена из скрытого состояния. Определенная вероятность связана с данным скрытым состоянием для создания токена.

Предположения, сделанные в HMM:

Грубая сила :

Давайте пометим предложение случайными POS-тегами, скажем, «Это/PRP выглядит/N нравится/PRP шоколад/VB». Теперь давайте посчитаем вероятность последовательности.

Давайте пометим предложение правильными POS-тегами, скажем, «Это/PRP выглядит/VB похоже/В шоколаде/N». Теперь давайте посчитаем вероятность последовательности.

Алгоритм Витерби:

Алгоритм Витерби находит метод динамического программирования для поиска наиболее вероятной последовательности тегов или скрытых состояний. Это своего рода оптимизация HMM для поиска наиболее вероятных скрытых состояний.

В данном предложении «Похоже на шоколад» токен like имеет два POS-тега, VB и IN. Путь с наименьшей вероятностью удаляется, а обратный проход дает путь или последовательность.

В этом примере вероятность последовательности ‹S› PRP VB VB N ‹E› становится равной 0.

Использованная литература:

  1. https://universaldependencies.org/docsv1/en/pos/all.html#al-en-pos/ADJ
  2. https://universaldependencies.org/u/pos/
  3. https://youtu.be/IqXdjdOgXPM
  4. https://www.freecodecamp.org/news/an-introduction-to-part-of-speech-tagged-and-the-hidden-markov-model-953d45338f24/
  5. https://www.mygreatlearning.com/blog/pos-tagged/
  6. Речь и язык, Джурафский

Предыдущие части из этой серии:

Часть №1: https://medium.com/@deephi.sudharsan/exploring-nlp-kickstarting-nlp-step-1-e4ad0029694f

Часть №2: https://medium.com/@deephi.sudharsan/exploring-nlp-kickstarting-nlp-step-2-157a6c0b308b

Часть №3: https://medium.com/@deephi.sudharsan/exploring-nlp-kickstarting-nlp-step-3-e6ea6963679d