Применение глубоких нейронных сетей (DNN) в ИИ может включать в себя миллионы записей данных и сложное обучение модели для достижения высочайшей производительности. Поиск способов повышения эффективности обучения DNN стал критически важной задачей.

Группа исследователей из Tencent Technology, Китайского университета Гонконга и Нанкайского университета недавно предложила новый метод обучения для решения этой проблемы. Они объединили два широко используемых метода - Batch Normalization (BatchNorm) и Dropout - в слой независимых компонентов (IC), вставленный перед каждым слоем весов, чтобы сделать входные данные более независимыми.

Работа «основана на прекрасной идее о том, что отбеливание входов нейронных сетей может обеспечить быструю скорость сходимости». Отбеливание - это метод предварительной обработки, направленный на уменьшение корреляции данных и стандартизацию дисперсии. Предыдущие попытки использовать отбеливание на каждом уровне активации были дорогостоящими в вычислительном отношении и в конечном итоге привели к использованию BatchNorm в качестве метода нормализации входных данных. Однако с тех пор BatchNorm отошел от своей цели отбеливания, и новое исследование предлагает способ переориентировать на это.

Исследователи объединили BatchNorm с техникой регуляризации Dropout для создания независимых активаций нейронов в каждом промежуточном весовом слое. Чтобы преодолеть вычислительную сложность, связанную с определением независимых компонентов, исследователи использовали BatchNorm для замены ZCA (анализ компонентов с нулевой фазой), который служит первым шагом для методов ICA (анализ независимых компонентов), но требует больших вычислительных ресурсов.

Высокая стоимость вычислений препятствует развитию широких нейронных сетей, в которых многие нейроны часто находятся на промежуточном уровне. Исследователи использовали Dropout для замены шага вращения в своем новом слое IC. Dropout вводит независимые случайные ворота для нейрона в слое и повышает скорость сходимости при добавлении к обучению DNN.

Оценки, проведенные на наборах данных CIFAR10 / 100 и ILSVRC2012, показали, что реализация метода улучшает характеристики классификации новых сетей по трем аспектам: «i) более стабильный процесс обучения, ii) более высокая скорость сходимости и iii) лучший предел сходимости.

Исследователи также предположили, что они рассматривают возможность использования более продвинутых методов нормализации, таких как нормализация слоев, нормализация экземпляров и групповая нормализация в слоях IC в будущем.

Статья Переосмысление использования пакетной нормализации и исключения при обучении глубоких нейронных сетей посвящена arXiv.

Журналист: Фаню Цай | Редактор: Майкл Саразен

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Подпишитесь на нас в Twitter @Synced_Global, чтобы получать ежедневные новости об ИИ!

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.