Я занимаюсь исследованием проблемы решения с конечным горизонтом с t = 1,..., 40 периодов. На каждом временном шаге t (единственный) агент должен выбрать действие a(t) ∈ A(t), пока агент находится в состоянии s(t) ∈ S(t). Выбранное действие a(t) в состоянии s(t) влияет на переход в следующее состояние s(t+1). Таким образом, существует марковская проблема решения с конечным горизонтом.
В моем случае верно следующее: A(t)=A и S(t)=S, при этом размер A равен 6 000 000, а размер S равен 10^8. Далее функция перехода является стохастической.
Поскольку я относительно новичок в теории поиска по дереву Монте-Карло (MCTS), я спрашиваю себя: подходит ли MCTS для моей задачи (в частности, из-за большого размера A и S и стохастической функции перехода?)
Я уже прочитал много статей о MCTS (например, о прогрессивном расширении и двойном прогрессивном расширении, которые звучат довольно многообещающе), но, может быть, кто-нибудь может рассказать мне о своем опыте применения MCTS к подобным проблемам или о подходящих методах для этой проблемы (с большим состоянием). /пространство действия и стохастическая переходная функция).