Возможно, нам придется отказаться от обратного распространения

Вступление

Искусственная нейронная сеть характеризуется весами и смещениями ее слоев. Эти веса и смещения отвечают за отображение заданного входа на соответствующий выход. Как правило, они случайным образом инициализируются небольшими числами, близкими к 0 (хотя есть несколько способов оптимальной инициализации весов и смещений сети, мы не будем заострять на этом внимание в этой статье) и обновляются в процессе, который мы называем «обучением». сеть », чтобы минимизировать ошибку.

Обратное распространение - это метод, используемый для обновления этих весов и смещений для повышения точности. Он работает, вычисляя градиент функции стоимости по отношению к параметрам сети (веса и смещения различных слоев) и обновляя значения на небольшую величину в противоположном направлении градиента, то есть в направлении, которое приводит нас к локальным минимумам. функции стоимости.

История

Основы непрерывного обратного распространения ошибки были выведены Генри Келли в 1960 году и Артуром Брайсоном в 1961 году в контексте теории управления. Они использовали принципы динамического программирования.

В 1962 году Стюарт Дрейфус опубликовал более простой вывод, основанный только на цепном правиле, а в 1968 году Дэвид Рамелхарт, Джеффри Хинтон и Рональд Уильямс экспериментально показали, что этот метод может генерировать полезные внутренние представления входящих данных в скрытых слоях нейронных сетей. Проще говоря, они показали, что этот метод можно использовать для расчета обновлений сетевых параметров, которые приводят к сходимости к локальным минимумам функции стоимости.

Итак, что случилось?

На недавней конференции по искусственному интеллекту Хинтон заметил, что он очень подозрительно относится к обратному распространению, и сказал: Я считаю, что выбросьте все это и начните заново.

Обратное распространение замечательно по нескольким причинам - изящная математика, дифференцируемая целевая функция, простота обновления параметров модели и т. Д. Однако есть несколько проблем с обратным распространением:

Всегда ли рассчитывается градиент в правильном направлении к обучению? Это очень интуитивный вопрос - всегда можно найти проблемы, в которых движение в наиболее очевидном направлении не всегда приводит к решению. Поэтому неудивительно, что игнорирование градиента также может привести к решению.

Синтетические градиенты, подход, который разделяет слои так, что вычисление градиента может быть отложено, также показал свою эффективность. Это открытие может быть намеком на то, что происходит что-то еще более общее. Как будто любое обновление, которое имеет тенденцию быть инкрементным, независимо от направления (случайное в случае синтетических градиентов), работает одинаково хорошо.

Есть еще одна проблема, связанная с используемой целевой функцией: Обратное распространение вычисляется относительно некоторой целевой функции. Обычно целевая функция является мерой разницы между прогнозируемым выходом и фактическим выходом. Это означает, что необходимо знать основную истину (фактический результат). Так обстоит дело в области контролируемого обучения, однако реальный мир не является «контролируемым» сам по себе.

Подводя итог, обратное распространение невозможно, если у вас нет целевой функции. У вас не может быть целевой функции, если у вас нет меры между прогнозируемым значением и фактическим значением. Таким образом, чтобы добиться «обучения без учителя», вам, возможно, придется отказаться от возможности вычислять градиент.

Неконтролируемое обучение представляет собой реальные проблемы с серьезными проблемами, в этом смысле, возможно, обратного распространения информации недостаточно, и неизбежно изменение парадигмы, чтобы подготовить почву для следующего прорыва.

Возможно, нам придется отказаться от обратного распространения