Униграмм

  • Здесь каждое слово в документе - это измерение.
  • Например, пусть будет корпус документов, как показано ниже:
  1. Эта машина хорошо ездит и стоит дорого.
  2. Эта машина очень дорогая и хорошо ездит.

Униграмма для вышеуказанного корпуса документов имеет следующий вид:

['This', 'car', 'drives', 'good', 'and', 'is', 'expensive', 'very']

Примечание 1. Текст, который может быть словом или предложением, известен как документ в НЛП.

Примечание 2: набор таких документов называется корпусом документов.

Биграмм

  • Здесь каждая пара следующих друг за другом слов - это измерение.
  • Пример использования с описанным выше корпусом документов:

Биграмм для вышеуказанного корпуса документов имеет вид:

['This car', 'car drives', 'drives good', 'good and', 'and is', 'is expensive', 'car is', 'is very', 'very expensive', 'and drives']

Триграмм

  • Здесь каждая тройка последовательных слов - это измерение.
  • Пример использования с описанным выше корпусом документов:

Триграмма для вышеуказанного корпуса документов имеет следующий вид:

['This car drives', 'car drives good', 'drives good and', 'good and is', 'and is expensive', 'This car is', 'car is very', 'is very expensive', 'expensive and drives', 'and drives good']

н-грамм

  • Здесь каждая группа из n последовательных слов является измерением.

Реализация n-грамм через Sklearn

  • Проверьте файл записной книжки jupyter, здесь.

Выводы:

  • Би-граммы и триграммы очень полезны в «Мешке слов».
  • Uni-gram отбрасывает информацию о последовательности.
  • В то время как биграммы, триграммы,…, н-граммы сохраняют некоторую информацию о последовательности.

Следуйте за мной на GitHub: deveshSingh06