TL;DR — Не полагайтесь на сообщения в блогах, чтобы изучить теорию и основы новой темы. Посмотрите на них, чтобы увидеть, как люди учатся, инструменты, которые они используют, черпают идеи и т. д.

Прошу прощения за то, что написал свой предыдущий пост об алгоритмах RL. По мере того, как я читал больше на эту тему и искал в Интернете, чтобы развеять свои сомнения, я понял, что кричащие посты на Medium от отдельных лиц загромождают пространство поиска без какого-либо доверия к людям, которые их пишут. Я рассчитывал на людей, которые могли быть новичками в преподавании — иногда на студентов старших курсов, у которых могло не быть понимания или достаточного понимания предметной области, чтобы преподавать.

Поймите, что люди, пишущие блоги, такие же люди, как вы и я, которые больше технари, чем собеседники. Хотя я встречал удивительно блестящих людей, которые вложили столько усилий в создание проектов, меня смущало то, как они объясняли вещи в тексте.

Показательный пример: я прочитал около 10 сообщений, в которых пытались объяснить разницу между моделями Q-Learning и временных различий, и каждый давал свою собственную версию, а иногда даже противоречил друг другу. Я уже собирался объявить себя самым глупым человеком, пытающимся изучить ИИ, когда решил проверить книгу мистера Саттона и посмотреть, что там об этом говорится. Ровно 4 строчки в 3-ю главу, мне сразу стало смешно-уровень-понятно, в чем разница. Авторы довольно просто заявляют,

«Обучение TD — это сочетание идей Монте-Карло и идей динамического программирования (DP). Как и методы Монте-Карло, методы TD могут учиться непосредственно на необработанном опыте без модели динамики окружающей среды. Как и DP, методы TD обновляют оценки, частично основанные на других изученных оценках, не дожидаясь окончательного результата (они загружаются)».

Просто, по делу. Я все еще могу быть самым глупым человеком, пытающимся изучить ИИ, но тем, кто может спокойно умереть, зная разницу.

Совет № 1: Прочтите эту замечательную бесплатную книгу под названием Обучение с подкреплением: введение Ричарда С. Саттона и Эндрю Дж. Барто, которые известны как пионеры RL.

Для тех, кто предпочитает лекции чтению, видеокурс Фей Фей Ли из лекции 14 курса под названием CS231n: сверточные нейронные сети для визуального распознавания является хорошим источником.

Совет № 2: Вы можете положиться на блоги, чтобы посмотреть удивительные проекты, реализованные отдельными людьми: получить идеи проектов, увидеть их код, анализ и т. д.

Получите вдохновение от замечательной работы, проделанной отдельными людьми!

Совет № 3: Ничто не заменит кодирование и проверку результатов для обучения. Идите вперед и реализуйте алгоритмы самостоятельно — определяйте функции для вычисления и перебора Q-значений вместо простого использования библиотек. Это вызовет в вашей голове много сомнений, которые вам нужно прояснить, чтобы действительно понять нюансы между различными алгоритмами. Обратите внимание: я хотел начать играть с кодом и увидеть алгоритмы RL в действии, поэтому я начал следить за сообщением в блоге и реализовывать алгоритм Q-обучения для игры в блэкджек. Вот — мой блокнот Colab.

Вместо первого пункта я решил не создавать больше шума, пытаясь объяснить свой вывод из прочитанного. Я оставляю это экспертам, которые знают теорию наизнанку и знают, что нужно услышать читателям. Таким образом, меняя свой подход к написанию постов, я буду указывать на ссылки, которые помогают мне изучать и понимать определенные темы.