Эта статья является частью серии Academic Alibaba и взята из статьи Чжэнь Чжан, Хунся Ян, Цзяцзюнь Бу, Шэн Чжоу Обучение атрибутированному представлению сети с помощью глубоких нейронных сетей. , Пинган Ю, Цзянвэй Чжан, Мартин Эстер и Кан Ван, приняты IJCAI 2018. Полную версию статьи можно прочитать здесь.

Информационные сети, такие как социальные сети и всемирная паутина, полезны не только для ресурсов, которые они хранят. Анализируя информационную сеть с использованием сети машинного обучения (процесс, известный как обучение представлению сети), можно получить большой объем информации о том, как работают сложные отношения между различными узлами информационной сети.

Классический пример этого в приложении - таргетинг и рекомендации онлайн-рекламы. Например, в Facebook пользователь часто ассоциируется с персонализированной информацией профиля, включая возраст, пол, образование и размещенный контент. Эти данные затем будут использоваться для предоставления пользователям целевой рекламы и предложений (например, групп для присоединения).

Однако обучение сетевому представлению включает в себя горы данных и высокую вычислительную сложность. Поэтому в большинстве исследований методов обучения сетевому представлению на сегодняшний день приходилось жертвовать информацией либо о сетевой структуре, либо об отдельных узлах в интересах создания масштабируемой модели.

Теперь техническая группа Alibaba в сотрудничестве с исследователями из Университета Чжэцзян, Китай, и Университета Саймона Фрейзера, Канада, предложила новую унифицированную структуру, называемую обучением с атрибутированным представлением сети (ANRL). ANRL включает в себя как сетевую структуру, так и информацию об атрибутах узлов в свой анализ информации, что приводит к более глубокому пониманию того, как взаимодействуют сетевые узлы.

Расшифровка окружения узла

Ключевой частью решения ANRL является автокодер расширения соседей, который сохраняет лучшее сходство между выборками данных в пространстве представления. Автоэнкодер - это тип искусственной нейронной сети, используемой для обучения эффективному кодированию данных неконтролируемым образом. Задача автоэнкодера - изучить представление (кодирование) для набора данных, как правило, с целью уменьшения размерности (процесс уменьшения количества рассматриваемых случайных величин путем получения набора основных переменных). Автокодер расширения соседей состоит из кодировщика и декодера, и модель восстанавливает целевых соседей вместо самого узла.

Кодировщик преобразует входные атрибуты и расширяет две выходные ветви. Левая выходная ветвь - это декодер, который восстанавливает целевых соседей своих входных выборок. Правая выходная ветвь предсказывает связанный контекст графа данных входов.

Этот подход имеет преимущество перед традиционными автокодировщиками, так как сохраняет лучшую близость между узлами. Интуитивно понятно, что полученные представления более устойчивы к вариациям, поскольку они ограничивают близко расположенные узлы, чтобы они имели похожие представления, заставляя их восстанавливать похожие целевые соседи. Таким образом, он фиксирует как атрибуты узлов, так и информацию о структуре локальной сети. Таким образом, ANRL сохраняет атрибуты узлов, структуру локальной сети и информацию о структуре глобальной сети в единой структуре.

Превосходное предсказание ссылок

Команда протестировала ANRL с помощью нескольких современных методов на нескольких реальных наборах данных. Формат теста представлял собой задачи прогнозирования ссылок для трех немаркированных наборов данных из Facebook, UNC и UniID. Результаты показаны ниже.

Методы на основе ANRL позволяют значительно улучшить AUC по сравнению с базовыми значениями во всех трех наборах данных. Например, метод технической команды позволил улучшить AUC примерно на 3,5% по сравнению с лучшим базовым уровнем производительности в наборе данных UNC. Они также заметили, что включение атрибутов узлов и информации о структуре сети улучшило производительность прогнозирования канала.

Команда объясняет, что одной из основных причин повышения производительности является то, что их модель учитывает информацию о локальной и глобальной сетевой структуре. Эти экспериментальные результаты на нескольких реальных наборах данных показывают, что предлагаемый ANRL превосходит типичные современные подходы к встраиванию.

Полную версию статьи можно прочитать здесь.

Alibaba Tech

Подробная информация о последних технологиях Alibaba из первых рук → Facebook: Alibaba Tech. Twitter: « AlibabaTech ».