Обучающие машины

Говоря об искусственном интеллекте, можно выделить две повторяющиеся темы. Один, который предсказывает мир, завоеванный злонамеренным роботом, и другой, который предсказывает утопический мир, в котором роботы будут служить нам и будут делать всю работу за нас. Какой сбудется?

Что ж, вероятно, никто этого не знает, и я тоже. Цель этой статьи не в том, чтобы дать вам какой-то вымышленный мир будущего. Цель состоит в том, чтобы проиллюстрировать принцип обучения, лежащий в основе большинства существующих систем искусственного интеллекта, и то, какой механизм обучения будет доминировать в будущем.

Подрыв искусственного интеллекта только начался.

Обучение под присмотром

Самый используемый, но практичный способ научить компьютер - это предоставить огромное количество данных с соответствующим правильным ответом. Подумайте об этом как о длинной последовательности заранее определенных вопросов и ответов. Задача компьютера состоит в том, чтобы учиться на этой последовательности, чтобы, задав новый вопрос, компьютер мог предсказать правильный ответ.

Самый известный пример, который, я уверен, вы уже слышали, - это классификация изображения как кошки или собаки. Как компьютер может научиться различать этих двух животных? Просто предоставив ему тысячи изображений с соответствующими ярлыками (например, кошка или собака).

Затем с помощью алгоритмов, известных как контролируемое обучение, машина улучшается и понимает разницу. Затем, учитывая новый снимок, которого раньше никто не видел, машина сможет распознать, является ли объект кошкой или собакой.

С помощью этой парадигмы вы можете сделать гораздо больше, чем просто классифицировать изображения. Например, вы можете обнаруживать объекты, распознавать лица и определять выражения лиц. Кроме того, те же алгоритмы можно использовать для работы с другими типами данных, такими как текст и речь.

Этот метод обучения отлично справляется с задачами такого рода. Это может показаться довольно убедительным, однако с точки зрения осуществимости и обучения есть два больших ограничения. Вы их видите?

Чтобы заставить машину учиться, все данные предоставляют люди. Но это может стать кошмаром, если человеку придется комментировать (то есть давать ответ) каждый пример вручную. Мы не можем вручную пометить тысячи или миллионы примеров для каждой новой задачи, которую машина должна изучить. Более того, в определенном смысле мы уже показываем им, как выполнять эту работу. А как насчет тех задач, которые мы не умеем решать?

Разве вы не предпочли бы научить робота, что он должен делать, и дать ему понять, как это делать?

Как люди учатся

Люди учатся в основном на собственном опыте. Мы учимся работе, спорту и всему остальному путем проб и ошибок. Мы повторяем задачу все больше и больше, чтобы ее освоить. Мы собираем отзывы из окружающей среды и расшифровываем, что сработало, а что нет. Затем мы используем эту информацию, чтобы улучшить наши убеждения и поведение, чтобы в следующий раз работать лучше. Каждый раз также возникает компромисс между использованием действий, которые, как мы знаем, работают лучше всего, и исследованием новых действий, которые могут привести к дальнейшим улучшениям.

Вы видите разницу между нашим процессом обучения и процессом обучения на машинах? Мы учимся на ограниченной обратной связи и можем экспериментировать с полной свободой. Мы ограничены только нами самими и законами физики. Если мы думаем, что, идя налево, мы достигнем своей цели раньше, мы идем налево. Вместо этого у машин есть замкнутая система, ограниченная набором данных с соответствующими правильными ответами, назначенными людьми. Они могут учиться только на них.

Как машины могут научиться достигать цели при небольшом контроле человека? Как машины могут сами понять, как выполнять задачу? Возвращаясь к нашей классификации кошек и собак, могут ли машины свободно перемещаться по миру, чтобы изучать различия между собакой и кошкой?

Машины, которые могут свободно взаимодействовать

Да, машины могут учиться так же, как люди. В основе обучения, подобного человеческому, лежит свобода передвижения в окружающей среде. Это может быть как реальный мир, так и симулятор.

Взаимодействие с окружающей средой - ключевой компонент обучения.

Парадигма довольно проста. Вы даете машинам свободу экспериментировать с окружающей средой и по крайней мере две обратной связи: положительную, когда они достигают цели, и отрицательную (или нейтральную) во всех остальных случаях. Это все, что им нужно от мира. Затем, используя алгоритмы обучения с подкреплением, по мере того, как время идет и машина накапливает опыт из окружающей среды, они сами выясняют, какие действия лучше всего предпринять в каждой ситуации для достижения цели.

Например, чтобы научить роботизированную руку собирать кости, вы просто даете ему положительную награду, когда он сможет поднять кости. Во всех остальных случаях награда будет отсутствовать. Затем алгоритм обучения с подкреплением сотворит чудеса, и через несколько часов / дней робот подберет все кости, которые вы хотите.

Уменьшая обратную связь с человеком, машины могут свободно изучать свои собственные стратегии и достигать сверхчеловеческих способностей.

Обучение робота с помощью обучения с подкреплением можно проводить как в реальном мире, так и в симуляции. Например, тот же метод обучения был успешно применен к видеоиграм, таким как Dota 2 и StartCraft II. В обеих играх система ИИ впервые смогла победить профессиональных игроков мира.

Машины обучались играм, играя во множество игр против самих себя, и продемонстрировали сверхчеловеческие способности к долгосрочному планированию, стратегии и восприятию.

Ближайшее будущее

Нет необходимости говорить, что вокруг этой методики обучения есть много открытых проблем. Однако метод уже здесь, и результаты поразительны. Это только вопрос времени и развития технологий, и скоро мы увидим, что все больше и больше машин будут использовать этот подход.

Как только некоторые проблемы, связанные с эффективностью, будут решены, вы сможете самостоятельно научить робота делать вещи, о которых вы никогда не думали. И когда вы будете давать обратную связь с роботом, вы каждый день будете видеть, как робот совершенствуется сам по себе.

Вы чувствуете вдохновение в этом будущем?

Дополнительные ресурсы

Прочтите полную статью о том, как система искусственного интеллекта DeepMind победила лучшего профессионального игрока: AlphaStar: освоение стратегии в реальном времени StarCraft II
Если вы хотите узнать больше об обучении с подкреплением, прочтите: Обучение с подкреплением за 60 дней

Обучающие машины