Теперь я знаю, о чем вы думаете. Как машина может меня научить ?! Не говоря уже о том, как это может принести мне пользу в условиях заключения COVID-19 ?! Вот моя изюминка для вас. Если вам не хватает смирения и любопытства, эта статья не для вас. Но если вы стремитесь к подобным Эйнштейну и Конфуцию, вы можете продолжить чтение.

Прежде всего, давайте превратим вопросы как в какие калибровки.

Люди полны качеств, каждое из которых может относиться как к положительному, так и к отрицательному концу поведенческого спектра. То же самое и с машинами. В конце концов, они - творение своих собратьев. Их мозг, другими словами, их нейронные сети устроены таким же образом, как и наш.

Если на секунду свести машину к частям и частям, то получится не что иное, как система нейронов, передающих информацию в ее кору, после чего предпринимаются действия. Затем следовало вознаграждение или наказание. Передача информации человеком и его поведенческий выход проявляются аналогично тому, как это происходит в машине.

Вот почему многие из нас проявляют себя наилучшим образом с фиксированным распорядком или четким графиком. В конце концов, маленький Марио в каждом из нас будет опасаться наказания в неопределенных условиях. Это привлекает внимание к истории о COVID-19. Это наверняка многих застало врасплох. Представьте себе, что Ferrari едет со скоростью 300 км / ч, а затем сразу же останавливается! Вот что случилось с состоянием мира.

Но что же тогда мы можем узнать у автоматической утки Декарта и Вокансона? Дело в том, что условия изменились, поэтому утка больше не работает в рамках своего статус-кво.

Машина учится с помощью разных алгоритмов. Обучение с подкреплением (RL) - одно из самых уважаемых в сфере машинного обучения (ML) . Это обсуждается ниже .

Возьмем, к примеру, мышь. Маленький человечек входит в среду, которая имеет ряд состояний [S] (контекстов) и действий [A] (движется). Основываясь на буквах S и A, жизненная миссия мыши вращается вокруг максимизации ее награды за счет получения большего количества очков и минимизации штрафов, которые могут привести к ее смерти.

На более высоком уровне мышь будет выполнять действия, основанные на двух аналитических рамках мышления: исследование и эксплуатация. Она будет исследовать окружающую ее среду, поэтому добавит новые состояния [от S0 до S1] и так далее; она также будет использовать свои недавние знания из предыдущих состояний. Таким образом, ее предварительные знания от S1 будут служить ей, когда она перейдет к неизвестному S2. Возможно, здесь кошка становится намного ближе, по сравнению с ее встречей в S1.

Итак, как мышь может получить наибольшее количество наград и наименьшее количество штрафов при такой двусмысленности?

Ответ кроется в функции, которую мышь имеет в своей нейронной сети, которая называется Q-функцией. Функция Q принимает форму матрицы, которая возвращает агенту, мышке, шаги, которые приносят ему максимальное вознаграждение. Постоянно исследуя и используя свое окружение, она может укрепить свое обучение, двигаясь в направлении с его ценностями в матрице. Q-матрица становится ее циклом обучения, который повторяется и улучшается, пока жива мышь.

Итак, одна вещь, которую мы можем извлечь из RL и мыши с позитивным мышлением, особенно во времена COVID-19, заключается в том, что, хотя мы не уверены в нашем будущем состоянии [St + 1], мы должны продолжать исследовать и использовать наши окружающая среда, дом и комната, в которой мы живем. Несомненно, мы можем создать новую привычку или распорядок, которые не просто заменят старую, но обогатят нашу жизнь как в целостном, так и в конкретном плане.

В следующий раз, когда кто-то скажет вам что-то вроде: «Я не знаю, куда мы направляемся», вы можете ответить, сказав: «По крайней мере, мы знаем, где мы сейчас находимся».

Хорошо то, что мы прошли нулевой уровень [S0] COVID-19. Возможно, каждый из нас сейчас находится на разном этапе. Один может быть на S1, а другой впереди на S2. Важно то, что мы используем силу Q-Matrix при изменении нашего образа жизни с течением времени. Это не только вызовет сознательные изменения, но и усилит наш механизм обучения, когда мы перейдем к следующему состоянию, следующему за [S + N].

Упражнение, которое я рекомендую сделать, - это подумать о привычке, распорядке, поведении, от которого вы хотите принять или избавиться, и записать это в Q-матрицу. Присвойте ему разные цифры, скажем, от 0 до 5. Те, которые в сумме дают наивысший балл, должны определять ваш следующий план действий. Возможно, вы задумываетесь о том, чтобы тренироваться по 2 часа в день или исследовать новый путь каждый раз, когда вы спускаетесь за продуктами, вплоть до стремления к более эффективному и сострадательному общению - в среднем 50% времени, которое вы проводите со своим супругом. в эти дни заключения.

Оставайтесь скромными, любопытными, с позитивным мышлением, подружитесь с мышью и помните, что нет ничего постоянного, кроме изменений.