Я пытаюсь построить n-граммную марковскую модель из данного фрагмента текста, а затем получить доступ к таблице переходов для нее, чтобы я мог вычислить условную энтропию для каждой последовательности слов длины n (граммы). Например, в 2-граммовой модели после прочтения корпуса текста
"собаки гоняют кошек собаки гоняют кошек собаки гоняют кошек собаки гоняют кошек собаки гоняют кошек собаки гоняют кошек собаки гоняют кошек собаки гоняют кошек собаки гоняют кошек собаки гоняют людей"
и строя внутреннюю таблицу переходов, состояние «гонятся за собаками» может переходить в состояние «гонятся за кошками» с вероятностью 0,9, а в состояние «гонятся за людьми» с вероятностью 0,1. Если я знаю возможные переходы, я могу вычислить условную энтропию.
Есть ли хорошие библиотеки Python для этого? Я проверил NLTK, SRILM и другие, но ничего не нашел.