Это первая часть серии статей о необходимости алгоритмов прогнозирования ссылок в конкретных доменах.

Как насчет прогнозирования ссылок?

Учитывая сеть друзей, в которой человек A является другом человека B, а человек B — другом человека C, есть ли шанс, что человек A станет другом человека C, учитывая, что у обоих есть друг человека B? есть ли какой-нибудь алгоритм, который может определить такого рода отношения? конечно. Это то, что пытается решить прогнозирование ссылок, учитывая граф, ищется алгоритм, который может узнать, как создаются отношения, а затем предсказать новые.

Проблема предсказания ссылок изучается уже несколько лет. Были предложены различные подходы, такие как модели на основе эвристики, модели на основе случайных блужданий, модели на основе автокодировщиков и т. д. Эти модели показали впечатляющие результаты в таких областях, как социальные сети, сети цитирования и белковые структуры. Однако такие модели не показывают хороших результатов на графиках всех доменов. Существует потребность в моделях прогнозирования ссылок, которые можно применять к различным явлениям, которые можно смоделировать в виде графа. Одна из областей, которая не была изучена с точки зрения встраивания графов и, как следствие, предсказания ссылок, — инженерия.

Инжиниринг — это сложная область, которая включает в себя интеграцию различных дисциплин, таких как разработка требований, проектирование, производство и эксплуатация. Одной из целей инженерных организаций является достижение прослеживаемости между дисциплинами. Однако достижение прослеживаемости — непростая задача из-за необходимости отделения приложений от данных и реализации стандартных API. К счастью, существуют стандарты, которые мы можем применять в качестве слоя поверх API-интерфейсов REST, таких как OSLC (Open Services for Lifecycle Collaboration), для соединения приложений из разных доменов и, как следствие, обеспечения прослеживаемости в инженерных организациях. Теперь давайте подумаем о каком-нибудь сценарии, в котором инженерные данные связаны в виде глобального графа. Что мы могли бы сделать с таким глобальным графом? Столько всего интересного.

Пользовательский поиск

В инженерных организациях, как и во многих других областях, поиск нужной информации в кратчайшие сроки является важной потребностью. Когда данные не связаны, требуется слишком много времени и усилий, чтобы установить соединение между различными приложениями, извлечь правильные данные, преобразовать данные, а затем найти информацию. Это почти невозможно сделать, когда организации имеют изолированные хранилища данных. Однако, когда данные подключены, нам не нужно заботиться о том, как создать правильное подключение или как преобразовать и выровнять данные, поскольку у нас уже есть подключенные данные, которые рассматриваются как единое целое, нам просто нужно позаботиться о том, чтобы запросить конкретная информация, которая нам нужна. Нам больше не нужно заботиться о том, поступает ли информация, которую мы запрашиваем, из пары приложений или из более чем двух.

Улучшенные визуализации и отчеты

В случае, когда у нас есть изолированные хранилища данных, мы можем просто создавать изолированные отчеты и визуализации, что не имеет особого смысла, когда мы пытаемся понять полный жизненный цикл какого-то конкретного продукта. Однако, когда данные связаны и просматриваются как глобальный граф, легче создавать полные отчеты, запрашивая глобальный граф, и, как следствие, это позволяет создавать более содержательные визуализации, которые включают информацию, извлеченную из различных источников данных.

Модели машинного обучения

В инженерии у нас есть разные отношения в разных областях, такие как требования, удовлетворяемые планами тестирования или планы тестирования с использованием имитационных моделей и т. д. В действительности все эти отношения создаются инженерами вручную. Однако создание этих взаимосвязей вручную занимает слишком много времени, и инженеры должны приложить дополнительные усилия, чтобы найти нужную информацию для связывания. На самом деле все эти ссылки сохраняются даже в документах Word или электронных таблицах, где сложно применить запросы для извлечения информации из-за того, что формат не обрабатывается машиной, более того, сложно проверить, что ссылки сохранены в таком формате. действительны. Однако что, если бы существовала модель машинного обучения, которая помогала бы инженерам автоматически создавать такие отношения? Это реальная проблема прогнозирования ссылок в контексте инженерии.

Как я уже говорил, с глобальным графом мы можем создать такую ​​впечатляющую поисковую систему, точно так же мы можем создавать более качественные визуализации и настраиваемые отчеты, однако в дополнение к этим замечательным решениям мы можем подумать о применении алгоритмов машинного обучения для решения конкретных проблем и для автоматизировать какой-либо процесс. Например, как мы уже знаем, с помощью глобального графа мы можем наблюдать и управлять нашими данными в целом, мы можем добавлять, удалять или изменять ссылки и узлы, но что, если модель машинного обучения может выполнять эти задачи сама по себе? проблема известна как предсказание ссылок. Предсказание ссылок — одна из главных проблем, над которой работают многие исследователи, были предложены разные подходы, позволяющие добиться интересных результатов. Однако существует больше задач, которые можно решить с помощью алгоритмов машинного обучения, таких как классификация узлов, извлечение подшаблонов, классификация графов, завершение графов и многие другие. В конце концов, эти подходы ML помогут инженерным организациям группировать артефакты по любой переменной, находить сложные шаблоны и подшаблоны в графе, классифицировать различные графы, завершать граф и т. д.

Заключение

Проблема предсказания ссылок возникла в последние годы. Это связано с тем, что сегодня подключено больше данных и, что наиболее важно, необходимо подключить больше данных. Это уступает место созданию различных и новых структур графов, где текущих моделей для представления сети в евклидовом пространстве недостаточно. Нам нужно начать думать о графах не как о социальной сети или сети цитирования, а как о графах конкретной предметной области. Разные задачи, разные графики, разные потребности и, следовательно, разные алгоритмы. Это новый вызов.

Скоро будет вторая часть, она будет посвящена сравнению традиционных и современных моделей предсказания ссылок. Идея состоит в том, чтобы сравнить производительность этих моделей с обычными наборами данных, такими как социальные сети или сети цитирования, с набором графических данных из инженерной области.