К тому времени, когда вы закончите читать эту статью, вы будете знать о широко почитаемой (в мире искусственного интеллекта) и постоянно исследуемой теории машинного обучения и, что более важно, о том, как реализовать ее в своей жизни, прежде чем позволить машинам извлечь из нее пользу.

Несмотря на то, что в наши дни машинное обучение (МО) широко используется и обсуждается во всех организациях, оно по-прежнему вызывает неприятные ощущения сложности, когда речь идет о знании теории, лежащей в основе алгоритмов.

Это видно даже среди просвещенных разработчиков ML, потому что большинство теорий ML, реализованных на их наборах данных, основаны на библиотеках Python.

Возможно, вы уже знаете, что все теории машинного обучения были вдохновлены природой, в основном живыми существами на Земле.

Тем не менее, есть одна теория, которую вы обязательно должны применить в своей жизни, чтобы тренировать свой разум и управлять своим будущим, точно так же, как инженеры используют ее для обучения и управления своими моделями.

Эта популярная теория ML носит название обучения с подкреплением (RL).

Глубокое понимание этой теории, под глубоким, я имею в виду более психологическое понимание этой концепции, даст вам некоторые идеи, с помощью которых вы сможете запрограммировать свой разум так, как вы хотите, чтобы он работал.

Любопытный? Продолжай читать.

Так что же такое обучение с подкреплением?

Давайте начнем с базового понимания.

Обучение с подкреплением — это то, что используется с незапамятных времен. По сути, это система, в которой тренер поощряет хорошие поступки стажера (или агента) наградой и препятствует плохим штрафом или наказанием.

Это применяется повсюду: от родителей к детям, учителей к ученикам и работодателей к сотрудникам, даже к вам — к вашим домашним животным (если они у вас есть или были).

Если вы захотите подумать дальше, вы, вероятно, поймете, что всю свою жизнь вы были агентом с таким количеством различных источников, которые тренировали ваши действия и вашу совесть.

Я приведу вам пример для размышления: вы могли обнаружить аллергию или инфекцию, когда занимались определенным видом деятельности. После этого вы решили больше сознательно не заниматься той же деятельностью, чтобы избежать повторного возникновения того же недуга. Вы, вероятно, отдали себе должное за то, что поняли это, не понимая, что вас научила сама природа, назначив наказание за то, что вы сделали, чего не должны были делать.

Сценарии RL в вашей жизни бесконечны, и если вы любите погрузиться в мысли, это интересное пространство. Кто знает, может быть, вы найдете цель жизни на Земле.

Прежде чем вы это сделаете, давайте немного углубимся в RL. Я воздержусь от короткой лекции, так что пока не убегайте.

Как обучение с подкреплением улучшает жизнь машин?

RL начинается с машины или агента, который, как предполагается, находится в заданном начальном состоянии в среде.

Чтобы сделать это более понятным, давайте возьмем в качестве примера роботизированную руку, целью которой является поднять стакан воды со стола.

Исходным состоянием может быть вытянутая рука робота, а окружающей средой будет комната, в которой она находится вместе со стаканом воды и столом.

Робот-манипулятор, вероятно, уже запрограммирован на выполнение основных действий, таких как складывание, повороты запястья и движения пальцев.

Когда робот выполняет последовательность шагов, которая приводит к успешному поднятию стакана с водой, через код на машину подается положительное значение или сигнал, чтобы указать вознаграждение за эту конкретную последовательность действий.

Всю последовательность можно разделить на более мелкие части с контрольными точками, имеющими меньшие награды, чтобы помочь машине быстрее достичь цели.

Как только цель достигнута, последовательность действий считается политикой, и каждому действию назначается награда с возрастающими значениями, начиная с первого действия, которое выполняет машина, до последнего действия, которое достигает цели.

Это помогает роботу-манипулятору повторить действие за один раз, когда он возвращается в исходное состояние. Другими словами, наш робот научился «одному способу» поднимать стакан с водой.

Естественно, теперь возникнут вопросы, есть ли еще способы достижения этой цели, а также является ли это наилучшей последовательностью действий для достижения этой цели.

Если обучение здесь остановлено, наш агент всегда будет следовать одной и той же последовательности шагов для достижения цели, даже если это не самый оптимизированный путь. Это называется Эксплуатация. Это то, чего мы не хотим, чтобы наш робот делал.

Чтобы избежать этого, инженер должен ввести агента в новое начальное состояние или новую позицию в среде и позволить агенту открыть для себя новую, возможно, лучшую последовательность действий для достижения цели.

Кроме того, на обнаруженных путях могут быть введены незначительные вознаграждения (положительные сигналы) и штрафы (отрицательные сигналы), чтобы дополнительно направлять агента к более оптимальным путям.

Это поощрение, данное агенту для определения лучшей последовательности действий или «политики» для достижения цели, называется исследованием.

Исследование может привести или не привести к обнаружению агентом более оптимальной политики, но оно, безусловно, поможет агенту узнать больше о своей среде.

Теперь, когда у нас есть фундаментальное понимание RL, мы двинемся вперед, чтобы увидеть, как его можно внедрить в нашу жизнь.

Итак, как вы можете использовать обучение с подкреплением, чтобы улучшить свою жизнь?

Мы видели случаи, когда в нашей жизни доминировало обучение с подкреплением и его применение на машинах инженерами искусственного интеллекта.

Вся эта концепция, включая подконцепции, может применяться и в вашей повседневной деятельности. Для этого вы должны быть тренером, а также агентом.

Позвольте мне уточнить.

Наиболее очевидным применением RL является ваша повседневная жизнь. Запланируйте свой день, используя награды. За каждую продуктивную вещь, которую вы делаете, назначьте награду.

Я согласен, что это была перспектива очень высокого уровня и, возможно, прозвучала слишком клише, поэтому позвольте мне немного разобрать ее.

Многие эксперты в области здравоохранения настоятельно рекомендуют рано вставать. Но мы оба знаем, что это нелегко.

Поэтому эта трудная задача заслуживает награды. Так что назначьте один.

Теперь это может быть что угодно. Большинство людей выбирают в качестве награды «приготовление любимого кофе/чая». Некоторые люди планируют свое любимое хобби как «первое дело с утра». Если вы фанат фитнеса, нам даже не нужна эта часть разговора, так как вы проснетесь еще до того, как прозвенит будильник.

Есть люди, которые откладывают открытие пакетов онлайн-покупок на утро следующего дня в награду за раннее пробуждение. Идея состоит в том, чтобы вознаградить себя чем-то, ради чего, по вашему мнению, стоит проснуться.

Теперь эту же систему можно применять и к другим видам деятельности, таким как тренировки, разговоры с вашим боссом (знаю, стрессовые), завершение модуля курса и многое другое.

Еще одно занятие — приготовление пищи, за которое уже дается награда, если только вы не испортите его и не получите наказания.

Эта система вознаграждений может быть расширена за пределы вашей повседневной рутины на то, над чем вы работали в течение длительного времени, например, написание статьи на Medium или выполнение личного проекта. Хотя их успешные результаты сами по себе являются вознаграждением, вы можете продвинуться вперед с помощью бонуса с вашей стороны. Это может быть просмотр самого любимого фильма или сериала или вечеринка для друзей.

Тем не менее, есть несколько жизненно важных аспектов, которые следует рассмотреть более подробно.

Не программируйте для эксплуатации.

Прежде чем вы приступите к назначению наград и планированию расписания, мы рассмотрим первую фундаментальную концепцию RL — эксплуатацию.

Выбор награды, которую вы даете себе, имеет решающее значение. Вы должны быть осторожны, чтобы не использовать свою систему обучения из-за вознаграждения.

Окончательное определение награды — это ваше счастье. Теперь это может быть краткосрочным или долгосрочным. Вот где вам нужно сделать обмен.

Да, я привожу вам пример. Давайте снова возьмем сценарий «пробуждения». Если вы решите вознаградить себя сезоном сериала Netflix за раннее пробуждение, вы можете в конечном итоге пересмотреть его, поскольку ваш мозг понимает, что он получает много счастья благодаря выработке дофамина.

Мало кто знает, что это очень краткосрочная награда, и в долгосрочной перспективе эта деятельность, вероятно, не поможет вам достичь лучшей цели.

Аналогичная плохая идея — начать пролистывать социальные сети сразу после пробуждения. Прежде чем вы это узнаете, вы бы потратили настоящие утренние вибрации впустую, просматривая виртуальные утренние ролики. Это случай, когда агент, вы, эксплуатируете систему обучения тренера.

Компромисс, который я бы предложил, чтобы избежать этого, заключается в том, чтобы размещать такие вознаграждения в более позднюю часть дня, когда большая часть вашей работы за день выполнена. Вероятно, между окончанием работы или занятий и ужином.

Теперь давайте посмотрим на эксплуатацию в более крупном масштабе. Представьте, что вы нашли работу, за которую вам хорошо платят. Но вы не находите работу достаточно удовлетворительной. Как только вы начинаете думать о переменах, зарплата приходит вместе с краткосрочным вознаграждением за счастье. Это заставляет вас забыть об изменении и продолжать идти по тому же пути.

Это самый распространенный случай самоэксплуатации, которым занимаются многие люди. Популярный термин, используемый для этого, — зона комфорта. Это не ограничивается только работой, но скорее применимо к любой деятельности, которую вы делаете.

Так как же тогда поступить?

Программа для изучения.

Мы видели, что инженеры машинного обучения поощряют свою модель гораздо больше исследовать свою среду в поисках лучшего пути.

Для этого они должны использовать награды или штрафы, чтобы заставить агента изменить путь для достижения цели более оптимальным способом.

Это побуждает агента не соглашаться на текущий путь или состояние. Это помогает агенту избежать эксплуатации и пойти дальше в поисках лучшего пути к цели.

Вы можете использовать ту же стратегию, ограничивая празднование дня зарплаты работой, которой вы недовольны, и позволяя себе понять, что это не то, чего вы действительно хотите.

Обратите внимание на термин «лимит». Это означает, что вы обязательно должны отпраздновать, но не до такой степени, что вы в конечном итоге полюбите этот праздник настолько, что не будете возражать остаться на этой работе еще на один месяц, чтобы повторить то же самое через четыре недели.

Это ограничение, которое вы накладываете на свое вознаграждение, мешает вам эксплуатировать вашу собственную среду. Используйте время и деньги, сэкономленные благодаря этому ограничению, для поощрения действий, которые помогут добиться лучшего жизненного пути.

Мы также видели, как инженеры ИИ вводят агента в новое начальное состояние или новую позицию в среде и побуждают агента открывать новый, возможно, лучший путь.

Это может быть напрямую связано со сценарием полного ухода с работы или отрасли и начала новой работы. Успех этого нового пути не может быть гарантирован, но нельзя отрицать тот факт, что в конечном итоге вы узнаете гораздо больше о своем окружении, мире.

Итак, без дальнейших промедлений приступайте к реализации.

Кроме того, если вам интересно узнать больше об обучении с подкреплением, ознакомьтесь со статьями на Medium от dan lee. Вы можете найти ссылку на конкретную статью RL ниже: