Униграмм
- Здесь каждое слово в документе - это измерение.
- Например, пусть будет корпус документов, как показано ниже:
- Эта машина хорошо ездит и стоит дорого.
- Эта машина очень дорогая и хорошо ездит.
Униграмма для вышеуказанного корпуса документов имеет следующий вид:
['This', 'car', 'drives', 'good', 'and', 'is', 'expensive', 'very']
Примечание 1. Текст, который может быть словом или предложением, известен как документ в НЛП.
Примечание 2: набор таких документов называется корпусом документов.
Биграмм
- Здесь каждая пара следующих друг за другом слов - это измерение.
- Пример использования с описанным выше корпусом документов:
Биграмм для вышеуказанного корпуса документов имеет вид:
['This car', 'car drives', 'drives good', 'good and', 'and is', 'is expensive', 'car is', 'is very', 'very expensive', 'and drives']
Триграмм
- Здесь каждая тройка последовательных слов - это измерение.
- Пример использования с описанным выше корпусом документов:
Триграмма для вышеуказанного корпуса документов имеет следующий вид:
['This car drives', 'car drives good', 'drives good and', 'good and is', 'and is expensive', 'This car is', 'car is very', 'is very expensive', 'expensive and drives', 'and drives good']
н-грамм
- Здесь каждая группа из n последовательных слов является измерением.
Реализация n-грамм через Sklearn
- Проверьте файл записной книжки jupyter, здесь.
Выводы:
- Би-граммы и триграммы очень полезны в «Мешке слов».
- Uni-gram отбрасывает информацию о последовательности.
- В то время как биграммы, триграммы,…, н-граммы сохраняют некоторую информацию о последовательности.
Следуйте за мной на GitHub: deveshSingh06