Сегодня обучение с подкреплением является одним из важнейших компонентов алгоритмов машинного обучения. Каждое правильное предсказание/действие вознаграждается, каждое неверное предсказание/действие наказывается. Каждое вознаграждение/наказание сообщает алгоритму, какое поведение повторять, а какое прекратить. Со временем алгоритм работает, чтобы максимизировать вознаграждение.

Что здесь критично? В большинстве ситуаций неправильных ответов больше, чем правильных. Неправильных шагов больше и очень мало/или один правильный шаг. Что является ключом к быстрому обучению алгоритма? Проваливай больше.

Чем больше ошибок вы избегаете (основываясь на прошлом опыте), тем ближе вы к правильному ответу. Хотя вы можете очень быстро найти правильный ответ, обучение происходит путем нахождения неправильных ответов и их избегания в будущем.

Однако это поведение, столь присущее нам в раннем детстве, ускользает от нас в более позднем возрасте. Мы стараемся смотреть/планировать/быть готовыми к 100% успеху с первой попытки. Мы совершенно не готовы ни к какому другому результату. Владельцев неудачных проектов распинают/очерняют/высмеивают. Неудачные проектные команды пытаются спрятаться под столом/действуют так, как будто они совершили преступление.

Без неправильных действий нет обучения (как мы видели на примере обучения с подкреплением). Вместо того, чтобы праздновать обучение, мы вечно боимся неудач/не готовимся к неудачам. Что еще хуже, мы не хотим начинать проект, если не уверены на 200 %, что он сработает.

Хотя такой консерватизм работал в прошлом, он может не работать сейчас, поскольку каждая отрасль/бизнес подвергается сбоям из неизвестных источников. «Потерпеть неудачу» — это не модное словечко и уж точно не опционально!