Является ли MonteCarloTreeSearch подходящим методом для такого размера проблемы (большое пространство действий/состояний)?

Я занимаюсь исследованием проблемы решения с конечным горизонтом с t = 1,..., 40 периодов. На каждом временном шаге t (единственный) агент должен выбрать действие a(t) ∈ A(t), пока агент находится в состоянии s(t) ∈ S(t). Выбранное действие a(t) в состоянии s(t) влияет на переход в следующее состояние s(t+1). Таким образом, существует марковская проблема решения с конечным горизонтом.

В моем случае верно следующее: A(t)=A и S(t)=S, при этом размер A равен 6 000 000, а размер S равен 10^8. Далее функция перехода является стохастической.

Поскольку я относительно новичок в теории поиска по дереву Монте-Карло (MCTS), я спрашиваю себя: подходит ли MCTS для моей задачи (в частности, из-за большого размера A и S и стохастической функции перехода?)

Я уже прочитал много статей о MCTS (например, о прогрессивном расширении и двойном прогрессивном расширении, которые звучат довольно многообещающе), но, может быть, кто-нибудь может рассказать мне о своем опыте применения MCTS к подобным проблемам или о подходящих методах для этой проблемы (с большим состоянием). /пространство действия и стохастическая переходная функция).


comment
Не сказать, что это не относится к Stack Overflow, но, возможно, было бы больше шансов получить хороший ответ на cs.stackexchange.com ?   -  person Jolta    schedule 09.01.2019
comment
ai.stackexchange.com тоже подойдет   -  person Dennis Soemers    schedule 09.01.2019


Ответы (1)


С 6 миллионами стохастических действий на состояние я не думаю, что какая-либо симуляция реально сможет различать эти движения, не работая практически вечно.

Однако 100 состояний MM — это немного, вы можете хранить значения для всех из них менее чем в гигабайте памяти, и что-то вроде итерации значения или итерации политики решит эту проблему оптимально намного быстрее.

person Nick Larsen    schedule 12.01.2019