Значение дифференциальной энтропии в машинном обучении, часть 5

Первый закон дифференциальной энтропии и голографической сложности (arXiv)

Аннотация: Мы строим КТП, двойственную первому закону сферических причинных ромбов в трехмерном АдС-пространстве-времени. Сферически-симметричный каузальный ромб в AdS3 представляет собой область зависимости пространственного круглого диска с исчезающей внешней кривизной. Объемный первый закон связывает изменения площади границы диска, пространственного объема диска, космологической постоянной и гамильтониана материи. В этой статье мы специализируемся на вариациях метрики первого порядка от чистого AdS до пространства-времени с коническими дефектами, а основной первый закон выводится в соответствии с подходом, основанным на координатах. Словарь AdS/CFT связывает площадь границы диска с дифференциальной энтропией в CFT2, и, предполагая гипотезу «сложность = объем», объем диска считается двойственным сложности отсечки CFT. На стороне CFT мы явно вычисляем дифференциальную энтропию и голографическую сложность для вакуумного состояния и возбужденного состояния, двойственного коническому AdS, используя формализм кинематического пространства. В результате граница, двойственная первому закону объема, связывает вариации дифференциальной энтропии и сложности первого порядка с вариациями скейлинговой размерности возбужденного состояния, что соответствует хорошо известному факту потери информации в классическом и простой алгоритм Q-обучения. Методы поиска политик на основе энтропии были введены для замены Q-обучения и для разработки алгоритмов, более устойчивых к потере информации. Мы предполагаем, что снижение производительности во время длительных тренировочных сессий Q-обучения вызвано потерей информации, которая непрозрачна при изучении только кумулятивного вознаграждения без изменения самого алгоритма Q-обучения. Мы вводим дифференциальную энтропию Q-таблиц (DE-QT) в качестве внешнего детектора потери информации для алгоритма Q-обучения. Поведение DE-QT во время тренировочных эпизодов анализируется, чтобы найти подходящий критерий остановки во время тренировки. Результаты показывают, что DE-QT может обнаруживать наиболее подходящую точку остановки, где соблюдается баланс между высокой вероятностью успеха и высокой эффективностью для классического алгоритма Q-Learning при изменении гамильтониана вещества в объеме. Мы также включаем изменение центрального заряда с соответствующим химическим потенциалом в граничный первый закон. Наконец, мы прокомментируем граничный двойник первого закона для патча Уилера-деВитта AdS и предложим расширение нашего первого закона КТП на более высокие измерения.

2. Q-обучение с дифференциальной энтропией Q-таблиц (arXiv)

Автор: Тунг Д. Нгуен, Кэтрин Э. Касмарик, Хусейн А. Аббасс.

Абстрактный :

Значение дифференциальной энтропии в машинном обучении, часть 5

Вопросы по теме