Недавние исследования продемонстрировали захватывающий прогресс в формулировании задач автономного обучения с подкреплением (RL) в виде задач контекстно-обусловленного моделирования последовательностей, что позволяет использовать мощные архитектуры преобразователей для значительного улучшения производительности без использования моделей, особенно в сценариях…