Публикации по теме 'deep-neural-networks'


Microsoft улучшает стабильность Transformer для успешного масштабирования чрезвычайно глубоких моделей до 1000 слоев
Исследовательская группа Microsoft представила «простой, но эффективный» метод, который значительно повышает стабильность моделей трансформаторов всего за несколько строк кода. Крупномасштабные трансформеры достигли самых современных результатов в широком спектре задач обработки естественного языка (NLP)…

Исследовательские работы по глубоким нейронным сетям (искусственный интеллект) для чтения
Визуализация восприятия: взгляд глазами DNN (arXiv) Автор: Лорис Джуливи , Марк Джеймс Карман , Джакомо Борачки Аннотация . Системы искусственного интеллекта (ИИ) управляют миром, в котором мы живем. Глубокие нейронные сети (ГНС) способны решать задачи в постоянно расширяющемся ландшафте сценариев, но наше стремление применять эти мощные модели заставляет нас сосредоточиться на их исполнении и лишает приоритета нашу способность их понимать. Текущие исследования в области..

Функции активации в нейронных сетях
Функции активации используются в нейронных сетях для внесения нелинейности в сеть. Это важно, потому что большинство реальных данных нелинейны, и нейронная сеть, выполняющая только линейные операции, не сможет моделировать такие данные и учиться на них. Кроме того, функции активации играют ключевую роль в обучении нейронных сетей. Они определяют выход каждого нейрона в сети и, следовательно, влияют на градиенты, которые распространяются обратно по сети во время обучения. Это может..

Нью-Йоркский университет исследует принципы моделирования нейронного коллапса и его роль в генерализации
Глубокие нейронные сети (DNN) продвинулись в решении самых современных задач, начиная от классификации изображений и заканчивая обработкой языка и игровым процессом. Но по мере того, как модели становились глубже и сложнее, понимание их поведения становилось все более сложной задачей. В качестве примера можно привести интригующий эмпирический феномен под названием «нейронный коллапс».

Google AI — LocoProp для улучшения обратного распространения
Чтобы обучить глубокую нейронную сеть, вам нужен дизайн модели и обучающие данные. Метод оптимизации, используемый для обновления параметров модели (весов), обсуждается реже, но все же важен. Функция потерь измеряет несоответствие между метками наземной истины и предсказаниями модели. Обучение осуществляется методом обратного распространения , который корректирует веса модели с помощью шагов градиентного спуска . Градиентный спуск, в свою очередь, обновляет веса, используя градиент..

DeepFry: алгоритмы глубоких нейронных сетей для идентификации Vocal Fry
Этот пост о нашей статье DeepFry , которая была принята к публикации на Interspeech 2022. Она была написана с помощью Йосси Кешет , Элеонора Чодрофф , Дженнифер С. Коул , Талия Бен Саймон, Яэль Сигал , Джереми Стеффман Что общего у Бритни Спирс, Зои Дешанель, Скарлетт Йоханссон и Ким Кардашьян? Все они используют тональное качество фрай вокала , тип скрипучего звука, который возникает, когда голос опускается до самого нижнего регистра. И мужчины тоже этим пользуются. В последнее..

BatchNorm + Dropout = DNN Успех!
Применение глубоких нейронных сетей (DNN) в ИИ может включать в себя миллионы записей данных и сложное обучение модели для достижения высочайшей производительности. Поиск способов повышения эффективности обучения DNN стал критически важной задачей. Группа исследователей из Tencent Technology, Китайского университета Гонконга и Нанкайского университета недавно предложила новый метод обучения для решения этой проблемы. Они объединили два широко используемых метода - Batch Normalization..