Правила ReLU: давайте разберемся, почему его популярность остается непоколебимой

От банальности к топологии…

Для любого, кто только стучится в дверь к глубокому обучению или является опытным его практикующим, ReLU является обычным явлением, как воздух. Воздух исключительно необходим для нашего выживания, но нужны ли ReLU для сетей глубокого обучения?

Если да, то «Почему?» - это первый вопрос, который приходит в голову, потому что существует множество активаций, из которых мы можем выбирать. С момента своего создания в 2010 году Дж. Хинтоном он неизменно возглавлял списки использования в сетях глубокого обучения.

Пристегните ремни безопасности, пока мы исследуем причины эффективности ReLU, исследуя идеи от производных до топологии. Но прежде чем мы начнем, краткое введение в ReLU.

Краткая история ReLU

У ReLU самое простое на вид уравнение, которое вы можете найти в Deep Learning.

А если его построить, то сам график слишком простой,

Причины загадочной эффективности ReLU

В следующий раз, когда кто-то спросит вас о ReLU в интервью или во время обсуждения, держите любой из этих ответов под рукой, и вы быстро пройдетесь!

Легкий ответ

Это просто с вычислительной точки зрения ускоряет обучение.

Вы видели уравнение выше, для его работы нужно всего лишь одно сравнение. Его расчет тривиален. С другой стороны, активации, такие как tanh или sigmoid, имеют сопровождающее их вычисление экспоненты, что значительно увеличивает вычислительные затраты.

Еще один фактор, который следует учитывать при глубоком обучении, - это время, необходимое для обучения сетей. Меньшее количество вычислений на самом деле снимает беспокойство и ожидание, которое испытываешь во время тренировки, уф! Если серьезно, то это помогает ускорить процесс поиска лучшей модели или набора гиперпараметров для вашей сети.

Можно также заметить, что ReLU следует за бритвой Оккама, будучи настолько простым в вычислении по сравнению с другими активациями, такими как сигмовидная или tanh.

Лучший ответ

Ненасыщающие градиенты ReLU решают проблему исчезающего градиента.

Первый вопрос, который приходит в голову, - что такое ненасыщающие градиенты?

Выше приведен график активации сигмовидной кишки. Через несколько эпох значения сигмоида коснутся его периферии (ближе к -1 и 1). Когда значения достигают периферии, изменение значения сигмовидной кишки очень низкое, что приводит к меньшим градиентам.

Из-за этих меньших градиентов возникает проблема исчезающих градиентов. Градиенты становятся слишком маленькими и начинают приближаться к нулю. Эти градиенты при использовании в обратном распространении начинают уменьшать ошибку, распространяющуюся в обратном направлении, до точки, в которой она исчезает.

ReLU вообще не имеет этой проблемы, потому что градиент для ReLU равен 1. Ошибка распространяется в обратном направлении, что устраняет эту проблему.

Бонус: ReLU приводит к разреженным представлениям данных

Из-за жесткого порога 0 в уравнении ReLU большинство нейронов в конечном итоге оказываются мертвыми, что приводит к разреженному представлению.

Редкое представление предпочтительнее плотного.

В плотном представлении изменение ввода изменяет почти все представление. С другой стороны, разреженное представление более устойчиво к изменениям входных данных. Это также означает, что разреженное представление имеет больше степеней свободы, поэтому любое изменение во входных данных влияет только на часть представления, а не на все.

Разреженное представление представляет собой наиболее важные корреляции данных, в то время как плотное представление может принимать незначительные корреляции данных внутри него, то есть из-за шума. Это также можно интерпретировать как получение низкого отношения сигнал / шум в полученном представлении.

Разреженное представление является эффективным с точки зрения вычислений еще и потому, что существует много умножений на 0.

Наконец, бритва Оккама может оправдать и преимущество разреженной репрезентативности.

Лучший ответ

ReLU легко может вносить топологические изменения в данные.

Лучший ответ связан с топологией, мистическим существованием в математике.

Проще говоря, топологию можно объяснить как данные имеют форму.

Между геометрией и топологией есть резкая разница. Геометрия никогда не меняет форму данных (подумайте об отражении, вращении, перемещении и растяжении). С другой стороны, есть топология.

Эта замечательная бумага раскрывает внутреннее устройство ReLU.

Выше изображение, изображающее набор данных с двумя классами (красный и зеленый) и то, как его форма изменяется при воздействии на него ReLU NN. Как видите, красный класс находится внутри зеленого класса. Никакие геометрические изменения не могут выделить красный цвет из зеленого, потому что любое геометрическое изменение будет действовать глобально.

Мы хотим, чтобы разные классы отображались в разных местах, но при этом были четко разделены. Именно это делает ReLU выше.

В статье также приводится убедительная причина неоправданной эффективности ReLU по сравнению с плавными сигмоидальными активациями. ReLU может изменять топологию данных намного лучше, чем плавные сигмоидальные активации.

Заключение

ReLU остается самым популярным выбором из всех функций активации. Мы рассмотрим недорогой в вычислительном отношении характер ReLU, ненасыщенность градиентов, которые он вызывает, как он решает проблему исчезающего градиента, как он приводит к разреженным представлениям и, наконец, как его реальная сила заключается в его способности изменять топологию данные.

Правила ReLU: давайте разберемся, почему его популярность остается непоколебимой

От банальности к топологии…

Краткая история ReLU

Причины загадочной эффективности ReLU

Легкий ответ

Лучший ответ

Бонус: ReLU приводит к разреженным представлениям данных

Лучший ответ

Заключение

Вопросы по теме