Работа с функциями активации, часть 3 (машинное обучение)

Настройка функций активации с учетом данных снижает ошибку нейронной сети (arXiv)

Аннотация: В этой работе мы предлагаем новую немонотонную функцию активации: модуль. Большинство опубликованных исследований нелинейностей сосредоточено на монотонных функциях. Мы эмпирически демонстрируем, как при использовании функции активации модуля в задачах компьютерного зрения модели обобщаются лучше, чем с другими нелинейностями — повышение точности до 15% в CIFAR100 и 4% в CIFAR10 по сравнению с лучшими из протестированных эталонных активаций. С предложенной функцией активации проблемы исчезающего градиента и умирающих нейронов исчезают, потому что производная функции активации всегда равна 1 или -1. Простота предлагаемой функции и ее производной делает это решение особенно подходящим для TinyML и аппаратных приложений.

2. Эффективная оптимизация функции активации с помощью суррогатного моделирования (arXiv)

Автор: Гаррет Бингхэм, Ристо Мииккулайнен.

Аннотация: Тщательно разработанные функции активации могут повысить производительность нейронных сетей во многих задачах машинного обучения. Однако людям сложно построить оптимальные функции активации, а существующие алгоритмы поиска функций активации непомерно дороги. Эта статья направлена на улучшение современного состояния посредством трех шагов: во-первых, эталонные наборы данных Act-Bench-CNN, Act-Bench-ResNet и Act-Bench-ViT были созданы путем обучения архитектур сверточных, остаточных и визуальных преобразователей из нуля с 2913 систематически генерируемыми функциями активации. Во-вторых, была разработана характеристика эталонного пространства, что привело к новому методу оптимизации на основе суррогатов. В частности, было обнаружено, что спектр информационной матрицы Фишера, связанный с прогностическим распределением модели при инициализации и выходным распределением функции активации, хорошо прогнозирует производительность. В-третьих, суррогат использовался для обнаружения улучшенных функций активации в задачах CIFAR-100 и ImageNet. Каждый из этих шагов является самостоятельным вкладом; вместе они служат практической и теоретической основой для дальнейших исследований по оптимизации функции активации. Код доступен по адресу https://github.com/cognizant-ai-labs/aquasurf, а эталонные наборы данных — по адресу https://github.com/cognizant-ai-labs/act-bench.

Работа с функциями активации, часть 3 (машинное обучение)

Вопросы по теме