1.Обобщенная гипотеза лотерейного билета(arXiv)

Автор :Ибрагим Алабдулмохсин, Лариса Маркеева, Даниэль Кейзерс, Илья Толстихин

Аннотация: мы вводим обобщение гипотезы о лотерейных билетах, в которой понятие «разреженности» ослабляется путем выбора произвольного базиса в пространстве параметров. Мы представляем доказательства того, что первоначальные результаты, представленные для канонического базиса, остаются в силе и в этом более широком контексте. Мы описываем, как структурированные методы обрезки, в том числе единицы обрезки или факторизацию полносвязных слоев в произведения матриц низкого ранга, можно рассматривать как частные случаи этой «обобщенной» гипотезы о лотерейных билетах. Описанные здесь исследования являются предварительными и предназначены для поощрения дальнейших исследований в этом направлении.

2. Гипотеза эластичного лотерейного билета(arXiv)

Автор:Сяохань Чен, Ю Чэн, Шохан Ван, Чжэ Ган, Цзинцзин Лю, Чжанъян Ван

Аннотация . Гипотеза лотерейных билетов (LTH) привлекает пристальное внимание к выявлению разреженных обучаемых подсетей или выигрышных билетов, которые можно обучать изолированно для достижения аналогичной или даже лучшей производительности по сравнению с полными моделями. Несмотря на многочисленные усилия, наиболее эффективным методом выявления таких выигрышных билетов по-прежнему является итеративное сокращение на основе величины (IMP), которое требует значительных вычислительных ресурсов и должно тщательно выполняться для каждой отдельной сети. Возникает естественный вопрос: можем ли мы преобразовать выигрышный билет, найденный в одной сети, в другую с другой архитектурой, дав выигрышный билет для последней в начале, без повторного выполнения дорогостоящего IMP? Ответ на этот вопрос важен не только с практической точки зрения для эффективного поиска выигрышных билетов раз и навсегда, но также и с теоретической точки зрения для выявления изначально масштабируемых разреженных паттернов в сетях. Мы проводим обширные эксперименты с CIFAR-10 и ImageNet и предлагаем различные стратегии для настройки выигрышных билетов, найденных в разных сетях одного семейства моделей (например, ResNets). Основываясь на этих результатах, мы сформулировали гипотезу эластичного лотерейного билета (E-LTH): путем осознанного воспроизведения (или удаления) и переупорядочения слоев для одной сети соответствующий выигрышный билет может быть растянут (или сжат) в подсеть для другой. более глубокая (или более мелкая) сеть из того же семейства, производительность которой почти такая же конкурентоспособная, как у выигрышного билета последнего, непосредственно найденного IMP. Мы также тщательно сравнили E-LTH с методами обрезки при инициализации и динамического разреженного обучения, а также обсудили обобщаемость E-LTH для различных семейств моделей, типов слоев и наборов данных. Код доступен на https://github.com/VITA-Group/ElasticLTH

3. Гипотеза единого лотерейного билета для графовых нейронных сетей(arXiv)

Автор:Тяньлун Чен, Юндуо Суй, Сюси Чен, Астон Чжан, Чжанъян Ван

Аннотация. С ростом размеров графов и появлением более глубоких графовых нейронных сетей (GNN) обучение и вывод GNN становятся все более дорогими. Существующие алгоритмы сокращения веса сети не могут устранить основное пространство и вычислительные узкие места в GNN, вызванные размером и связностью графа. С этой целью в этой статье впервые представлена ​​унифицированная структура разрежения GNN (UGS), которая одновременно сокращает матрицу смежности графа и веса модели для эффективного ускорения вывода GNN на крупномасштабных графах. Используя этот новый инструмент, мы впервые обобщаем недавно популярную гипотезу о лотерейных билетах на GNN, определяя лотерейный билет на основе графа (GLT) как пару основного поднабора данных и разреженной подсети, которые могут быть совместно идентифицированы из исходный GNN и полный плотный граф путем многократного применения UGS. Как и его аналог в сверточных нейронных сетях, GLT может быть обучен изолированно, чтобы соответствовать производительности обучения с полной моделью и графом, и может быть извлечен как из случайно инициализированных, так и с самоконтролем предварительно обученных GNN. Наше предложение было экспериментально проверено на различных архитектурах GNN и различных задачах, как на небольших наборах графических данных (Cora, Citeseer и PubMed), так и на крупномасштабных наборах данных из сложного Open Graph Benchmark (OGB). В частности, для классификации узлов найденные нами GLT достигают одинаковой точности с экономией MAC на 20–98% на небольших графах и на 25–85% на больших. Для прогнозирования ссылок GLT приводит к экономии MAC-адресов на 48–97% и 70% для небольших и больших наборов графических данных соответственно без ущерба для производительности прогнозирования. Коды доступны на https://github.com/VITA-Group/Unified-LTH-GNN