1. Graph Ladling: потрясающе простое параллельное обучение GNN без промежуточного общения (arXiv)

Автор: Аджай Джайсвал, Шивэй Лю, Тяньлун Чен, Ин Дин, Чжанъян Ван.

Аннотация: графы вездесущи, а GNN представляют собой мощное семейство нейронных сетей для обучения на графах. Несмотря на свою популярность, масштабирование GNN путем углубления или расширения страдает от распространенных проблем нездоровых градиентов, чрезмерного сглаживания, раздавливания информации, которые часто приводят к некачественной производительности. В этой работе мы заинтересованы в изучении принципиального способа масштабирования пропускной способности GNN без углубления или расширения, что может повысить ее производительность на нескольких малых и больших графах. Вдохновленные недавним интригующим феноменом суп-моделей, который предполагает, что точно настроенные веса нескольких предварительно обученных моделей с большим языком могут быть объединены до лучших минимумов, мы выступаем за использование основ суп-моделей для смягчения вышеупомянутых проблем с памятью. узкое место и обучаемость при масштабировании GNN. В частности, мы предлагаем не углублять и не расширять существующие GNN, а вместо этого представить ориентированную на данные перспективу модельных супов, адаптированных для GNN, т. е. построить мощные GNN путем разделения данных гигантского графа для построения независимо и параллельно обученных нескольких сравнительно более слабых GNN без любые промежуточные сообщения и объединение их возможностей с использованием жадной процедуры супа интерполяции для достижения современной производительности. Кроме того, мы предлагаем широкий спектр методов подготовки модельного супа, используя самые современные методы выборки графов и подходы к разбиению графов, которые могут обрабатывать большие структуры данных графов. Наши обширные эксперименты со многими реальными маленькими и большими графами иллюстрируют эффективность нашего подхода и указывают на многообещающее ортогональное направление для масштабирования GNN. Коды доступны по адресу: \url{https://github.com/VITA-Group/graph_ladling}.

2. Вопросы разделения: методы плоского минимума для повышения производительности GNN (arXiv)

Автор : Николас Лелл, Ансгар Шерп

Аннотация: при обучении нейронной сети она оптимизируется с использованием доступных обучающих данных с надеждой, что она хорошо обобщается на новые или невидимые данные тестирования. Предполагается, что при одном и том же абсолютном значении плоский минимум в ландшафте убытков обобщает лучше, чем резкий минимум. Методы определения плоских минимумов в основном исследовались для независимых и одинаково распределенных (i. i. d.) данных, таких как изображения. Графы по своей сути не i. я. д. так как вершины реберно связаны. Мы исследуем методы плоских минимумов и комбинации этих методов для обучения графовых нейронных сетей (GNN). Мы используем GCN и GAT, а также расширяем Graph-MLP для работы с большим количеством слоев и большими графиками. Мы проводим эксперименты с небольшими и большими наборами данных о цитировании, совместной покупке и белке с различными сплит-тестами как в трансдуктивной, так и в индуктивной процедуре обучения. Результаты показывают, что методы плоских минимумов могут улучшить производительность моделей GNN более чем на 2 балла, если разделение поезд-тест рандомизировано. Следуя Shchur et al., рандомизированные разделения необходимы для справедливой оценки GNN, поскольку другие (фиксированные) разделения, такие как Planetoid, являются предвзятыми. В целом, мы предоставляем важную информацию для улучшения и справедливой оценки методов плоских минимумов на GNN. Мы рекомендуем практикующим врачам всегда использовать методы усреднения веса, в частности EWA, при ранней остановке. Хотя методы усреднения веса только иногда являются наиболее эффективным методом, они менее чувствительны к гиперпараметрам, не требуют дополнительного обучения и сохраняют исходную модель неизменной. Весь исходный код доступен на https://github.com/Foisunt/FMMs-in-GNNs.