1. Discretize-Optimize vs. Optimize-Discretize для регрессии временных рядов и непрерывной нормализации потоков (arXiv)

Автор: Дерек Онкен, Ларс Рутотто.

Аннотация: мы сравниваем подходы дискретизации-оптимизации (Disc-Opt) и оптимизации-дискретизации (Opt-Disc) для регрессии временных рядов и непрерывных нормализующих потоков (CNF) с использованием нейронных ОДУ. Нейронные ОДУ — это обыкновенные дифференциальные уравнения (ОДУ) с компонентами нейронной сети. Обучение нейронного ОДУ — это задача оптимального управления, где веса — это элементы управления, а скрытые функции — это состояния. Каждая обучающая итерация включает в себя решение ОДУ вперед и назад во времени, что может потребовать больших объемов вычислений, времени и памяти. Сравнивая подходы Opt-Disc и Disc-Opt в задачах классификации изображений, Gholami et al. (2019) предполагают, что Disc-Opt предпочтительнее из-за гарантированной точности градиентов. В этой статье мы расширяем сравнение с нейронными ОДУ для регрессии временных рядов и CNF. В отличие от классификации, содержательные модели в этих задачах также должны удовлетворять дополнительным требованиям, помимо точного конечного вывода, например, обратимости КНФ. С помощью наших численных экспериментов мы демонстрируем, что при тщательной численной обработке методы Disc-Opt могут достигать таких же результатов, как и Opt-Disc при выводе, при значительном снижении затрат на обучение. Disc-Opt сократил затраты на шесть из семи отдельных проблем, сократив время обучения в диапазоне от 39% до 97%, а в одном случае Disc-Opt сократил обучение с девяти дней до менее чем одного дня.

2.InfoCNF: эффективный условный непрерывный нормализующий поток с адаптивными решателями (arXiv)

Автор: Тан М. Нгуен, Анимеш Гарг, Ричард Г. Баранюк, Анима Анандкумар.

Аннотация: непрерывные нормализующие потоки (CNF) стали многообещающими глубокими генеративными моделями для широкого круга задач благодаря их обратимости и точной оценке правдоподобия. Однако формирование CNF на сигналах, представляющих интерес для генерации условного изображения и последующих задач прогнозирования, неэффективно из-за многомерного скрытого кода, генерируемого моделью, который должен иметь тот же размер, что и входные данные. В этой статье мы предлагаем InfoCNF, эффективную условную CNF, которая разделяет скрытое пространство на контролируемый код для конкретного класса и неконтролируемый код, который используется всеми классами для эффективного использования помеченной информации. Поскольку стратегия разбиения (незначительно) увеличивает количество вычислений функций (NFE), InfoCNF также использует вентильные сети для изучения допусков ошибок своих решателей обыкновенных дифференциальных уравнений (ODE) для повышения скорости и производительности. Мы эмпирически показываем, что InfoCNF повышает точность теста по сравнению с базовым уровнем, обеспечивая при этом сопоставимые оценки правдоподобия и уменьшая NFE на CIFAR10. Кроме того, применение той же стратегии секционирования в InfoCNF к данным временных рядов помогает повысить производительность экстраполяции.