Публикации по теме 'rewards'


Максимальное исследование и эксплуатация
Понимание алгоритма верхней доверительной границы (UCB) Введение В сфере принятия решений и оптимизации крайне важно найти правильный баланс между разведкой и эксплуатацией. В ситуациях, когда мы сталкиваемся с неопределенной средой или ограниченными ресурсами, первостепенное значение приобретает осознанный выбор. Именно здесь алгоритм верхней доверительной границы (UCB) становится ценным инструментом. UCB — популярный метод, используемый в задачах о многоруких бандитах и..

Обучение с подкреплением, не может быть проще, чем это.
Просто оглянитесь вокруг. Что ты видишь? Окружающая среда. Место с материальными вещами вокруг вас. Предположим, вы находитесь в комнате и читаете эту статью на своем ноутбуке, а я врываю в вашу среду, бегу к вам с ножом. Что вы будете делать? Бьюсь об заклад, вы попытаетесь защитить себя или бежать в ограниченных пределах комнаты. Это вы взаимодействуете с окружающей средой, стремясь получить награду (в данном случае пытаясь успешно защититься от меня) или получить наказание..