Новая функция активации на основе гиперболического тангенса для нейронных сетей

Аннотация:

В этой статье я представляю новую функцию активации на основе гиперболического тангенса, касательную линейную единицу (TaLU) для нейронных сетей. Производительность функции оценивалась с использованием базы данных CIFAR-10 и CIFAR-100. Производительность предлагаемой функции активации была на уровне или выше, чем у других функций активации, таких как: стандартный выпрямленный линейный блок (ReLU), выпрямленный линейный блок с утечкой (Leaky ReLU), и экспоненциальный линейный блок (ЭЛУ).

Введение:

Выпрямленный линейный блок (ReLU) (Наир В. и Хинтон, GE, «Выпрямленные линейные блоки улучшают ограниченные машины Больцмана», ICML, 2010, стр. 807–810) является одним из самых популярных нестандартных устройств. -насыщенные функции активации, используемые в нейронных сетях. Однако ReLU страдает от проблемы умирающего ReLU, когда некоторые из нейронов начинают выводить 0. Иногда половина нейронов умирает, особенно если они используются с большой скоростью обучения (Géron, A. , «Практическое машинное обучение с помощью Scikit-Learn и TensorFlow», 1-е изд., O'Reilly Media, Inc., 2017, стр. 281). Чтобы обойти эти проблемы, Xu et al. (Сюй, Б., Ван, Н., Чен, Т., Ли, М., «Emperical Evaluation Rectified Activations in Convolution Network», препринт aerXiv arXiv: 1505.00853v2, 2015) оцененные варианты ReLU, таких как выпрямленный линейный блок с утечкой (негерметичный ReLU), параметрический выпрямленный линейный блок (PReLU) и рандомизированный выпрямленный линейный блок (RReLU) . Было замечено, что дырявый ReLU в основном превосходит стандартный ReLU. Clevert et al. (Clevert, D., Unterthiner, T., Hochreiter, S., «Быстрое и точное глубокое сетевое обучение с помощью экспоненциальных линейных единиц», препринт aerXiv arXiv: 1511.07289, 2015) предложил экспоненциальную линейную единицу (ELU ), который превосходил все варианты ReLU (Жерон, А., «Практическое машинное обучение с помощью Scikit-Learn и TensorFlow», 1-е изд., O'Reilly Media, Inc., 2017, с. 282).

Я предлагаю новую функцию активации, основанную на функции гиперболического тангенса, касательной линейной единицы (TaLU). Ниже обсуждается определение TaLU, за которым следует определение его оптимизированных параметров и его сравнение с другими функциями активации, такими как ReLU, утечка ReLU и ELU.

Касательная линейная единица (TaLU):

Касательная линейная единица (TaLu) может быть проиллюстрирована на рис. 1 и может быть описана уравнением ниже.

Рис. 1. Касательная линейная единица (TaLU)

где α - фиксированный параметр со значениями ‹0. В данной статье α тестировался от -0,50 до -0,01.

Экспериментальная установка:

Предложенная функция активации была протестирована на наборах данных CIFAR-10 и CIFAR-100, а производительность сравнивалась с ReLU, дырявым ReLu (α = 0,01) и ELU (α = 1). Во время этого исследования использовались библиотеки на основе Python: Tensorflow, Numpy, Pandas и Keras. Архитектура нейронной сети описана на рисунке 2. Данные были разделены на обучающие и проверочные в соотношении 9: 1 из наборов данных поездов, предоставленных для CIFAR-10 и CIFAR-100, и модель была протестирована на тестовых наборах данных, предоставленных для CIFAR-10 и CIFAR-100.

Рисунок 2: Архитектура нейронной сети, использованной в ходе этого исследования (Примечание: функция активации (af) на уровнях 1, 2, 5, 7, 11 была Talu, ReLU, ELU и Leaky ReLU , на основе эксперимента).

Код можно найти по адресу https://github.com/mjain72/TaLuActivationFunction

Параметрическое исследование TaLU:

Первоначально было проведено параметрическое исследование для определения оптимального значения α. Таблица 1 показывает значения потерь и точности для обучения, проверки и тестирования для набора данных CIFAR-10. Количество эпох за время обучения - 25. Оптимальное значение α составило -0,05. Аналогичное оптимальное значение для α наблюдалось для набора данных CIFAR-100 (Таблица 2).

Таблица 1: Параметрическое исследование TaLU с использованием набора данных CIFAR-10

Таблица 2: Параметрическое исследование TaLU с использованием набора данных CIFAR-100

На основании этих исследований было решено использовать α = -0,05 для TaLU во время сравнительного исследования с функциями активации ReLU, просочившегося ReLU и ELU.

Сравнительное исследование TaLU с различными функциями активации:

Как только было определено, что оптимальное значение α составляет -0,05, в случае TaLU, мы использовали это значение для проведения сравнительного исследования с другими функциями активации. Таблица 3 показывает производительность различных функций в случае набора данных CIFAR-100. Было замечено, что производительность TaLU превосходит точность других функций активации.

Таблица 3. Производительность различных функций активации для набора данных CIFAR-100.

Таблица 4 показывает производительность различных функций активации в случае набора данных CIFAR-10. В этом случае также производительность TaLU была на уровне или выше, чем у других функций активации.

Таблица 4: Производительность различных функций активации для набора данных CIFAR-10

Выводы:

На основании вышеизложенного исследования можно сделать вывод, что предлагаемая функция активации, TaLU, обеспечивает лучшую или аналогичную производительность, чем используемые в настоящее время функции активации, такие как ReLU, дырявый ReLU и ELU, и ее следует оценивать для будущих исследований.

Кривые сходимости:

Рисунок 3: Кривые сходимости для TaLU при различных значениях α, показанные в скобках, с использованием набора данных CIFAR-10.

Рисунок 4: Кривые сходимости для TaLU при различных значениях α, показанные в скобках, с использованием набора данных CIFAR-100.

Рисунок 5: Кривые сходимости для различных функций активации с использованием набора данных CIFAR-10.

Рисунок 6: Кривые сходимости для различных функций активации для набора данных CIFAR-100.