Этот блог будет посвящен развитию базового понимания архитектуры глубоких нейронных сетей, предназначенных для обработки пространств состояний и действий, характеризующихся естественным языком. На экспериментальные результаты этого блога ссылаются исследования Microsoft Глубокое обучение с подкреплением в пространстве действий на естественном языке.

Что такое обучение с подкреплением?

Так как этот мой блог тоже будет начинаться с нуля, мы начнем с понимания того, что такое обучение с подкреплением.

Обучение с подкреплением - это область машинного обучения, а значит, и ветвь искусственного интеллекта. Это позволяет машинам и программным агентам автоматически определять идеальное поведение в конкретном контексте, чтобы максимизировать его производительность. Чтобы агент узнал о своем поведении, требуется простая обратная связь с вознаграждением, это называется сигналом подкрепления.

Именно так люди начали познавать вещи, как мы развивались, зная, что правильно, а что нет. Возьмем, к примеру, новорожденного ребенка, он понятия не имеет, что происходит? что делать? он мог бы сжечь весь дом и подумать, что это весело, только если бы он мог: p. По мере того, как он растет, родители мешают ему делать то, что не предназначено, он получает отрицательную обратную связь от своей матери, когда писает на кушетку. Когда приветствует гостей, он получает положительные отзывы. Вот что такое обучение с подкреплением !!

Ребенок - Агент, а его родители - окружение. Агент выполняет задачу и получает соответствующее ей вознаграждение (отрицательное или положительное). Идея состоит в том, чтобы обучить машины так, чтобы они думали и вели себя как люди.

Обучение с подкреплением позволяет машине или программному агенту изучать свое поведение на основе обратной связи с окружающей средой. Этому поведению можно научиться раз и навсегда или со временем адаптироваться. При тщательном моделировании проблемы некоторые алгоритмы обучения с подкреплением могут сходиться к глобальному оптимуму; это идеальное поведение, которое максимизирует вознаграждение.

Модель обучения с подкреплением:

  • набор состояний среды: S
  • Набор действий: A
  • правила перехода между состояниями
  • правила, определяющие немедленное вознаграждение за переход состояния
  • правила, описывающие то, что наблюдает агент

Q-Learning:

  • Он используется для изучения политики обучения с подкреплением.
  • Политика: правило, которому должен следовать агент для выбора действий с учетом текущего состояния.
  • Q-Learning: найдите оптимальную политику для процесса принятия решений.
  • Подход: изучение функции ценности действия, также известной как Q-функция, которая вычисляет ожидаемую полезность выполнения действия в состоянии после схождения обучения.
  • Q-функция [Q (s, a)]: возвращает значение Q для действия a в состоянии s.

Q-значение:

При статистической проверке гипотез, в частности, при проверке множественных гипотез, q -значение предоставляет средства для управления частотой положительных ложных обнаружений (pFDR). Так же, как p -значение дает ожидаемую частоту ложных срабатываний, полученную путем отклонения нулевой гипотезы для любого результата с равным или меньшим p -значением, q -value дает ожидаемое pFDR, полученное путем отклонения нулевой гипотезы для любого результата с равным или меньшим q -значением.

Я почти уверен, что некоторые из вас слышали об игре AlphaGo или, должно быть, слышали о некоторых ботах, побеждающих чемпионов мира. Все кредиты Deep-Q-Network.

Теперь важно понять, что при обучении учащегося для таких игр, как AlphaGo и Chess, агент имеет очень маленькое пространство действия, но большое пространство состояний. Например, в игре в шахматы пространство состояний - это вся доска 20X20, но пространство действий невелико, как пешка может двигаться только в 1–2 направлениях. Deep-Q-Network оказалась очень эффективной.

Но что, если мы говорим об обучении с подкреплением для понимания языка?

Обучение с подкреплением для понимания языка

Последовательная задача принятия решения для понимания текста:

  • Например, разговор, выполнение задач, текстовые игры…
  • Агент наблюдает состояние как строку текста в момент времени t, например, текст состояния s (t).
  • Агент также знает набор возможных действий, каждое из которых описывается как строковый текст, например тексты действий.
  • Агент пытается понять «текст состояния» и все возможные «тексты действий» и предпринимает правильные действия - правильное означает максимизацию долгосрочного вознаграждения.
  • Затем состояние среды переходит в новое состояние, агент получает немедленное вознаграждение.

Неограниченное пространство действий в RL для NLP:

Не только пространство состояний огромно, но и пространство действия тоже огромно. Действие характеризуется неограниченными описаниями на естественном языке. Например, если сказать модели «Привет! Как поживаешь? Я просто ждал, пока F.R.I.E.N.D.S начнет стрим, но мощность пропала ». Что ж, этот вводимый мной текст - это пространство состояний для модели (довольно тяжелое), а пространство действия - это каждая доступная текстовая комбинация (или бесконечность). Эта проблема для такого огромного пространства действий по-прежнему оставалась проблемой в Deep-Q-Network. Затем была предложена сеть релевантности глубокого армирования (DRRN).

Сеть релевантности глубокого армирования (DRRN):

Идея DRRN состоит в том, чтобы спроецировать состояние и действие в непрерывное пространство (как векторы). Q-функция - это функция релевантности вектора состояния и вектора действия.

На рисунке 2 показано обучение с помощью функции взаимодействия с внутренним продуктом (применение DRRN). Мы использовали анализ главных компонентов (PCA), чтобы спроецировать 100-мерное представление последнего скрытого слоя (перед внутренним продуктом) на двумерную плоскость. Вложения векторов начинаются с малых значений, и после 600 эпизодов тренировки с воспроизведением опыта вложения очень близки к конвергентному встраиванию (4000 эпизодов). Вектор внедрения оптимального действия (действие 1) сходится к положительному внутреннему продукту с вектором вложения состояния, в то время как действие 2 сходится к отрицательному внутреннему продукту.

На рисунке выше показаны кривые обучения для различных моделей, где размер скрытых слоев в DQN и DRRN установлен равным 100. После примерно 4000 эпизодов обучения с воспроизведением опыта все методы сходятся. DRRN сходится намного быстрее, чем три других базовых уровня, и обеспечивает более высокое среднее вознаграждение. Мы предполагаем, что это связано с тем, что архитектура DRRN лучше улавливает релевантность между текстом состояния и текстом действия. Более быстрая сходимость для «Спасения Джона» может быть связана с меньшим пространством наблюдения и / или детерминированным характером его переходов между состояниями.

Мы обсуждали:

  • Мы обсудили обучение с подкреплением и то, как Deep-Q-Network (DQN) отлично справляется с задачами с небольшим пространством действий (AlphaGo).
  • Почему и чем глубокое обучение с подкреплением для НЛП (например, текстовые игры) отличается от обычной игры с небольшим пространством для действий.
  • Обсуждается неограниченное пространство действий в обучении с подкреплением для НЛП и то, как сеть релевантности глубокого подкрепления (DRRN) быстрее конвергировалась в экспериментах, проведенных над двумя текстовыми играми («Спасение Джона» и «Машина смерти»).