В этом посте исследуются гетерогенные информационные сети (HIN) и приложения для кибербезопасности.

В течение последних нескольких месяцев я исследовал варианты использования гетерогенных информационных сетей (HIN) и кибербезопасности. Я впервые столкнулся с HIN после того, как обнаружил эту статью: « Попался: хитрое вредоносное ПО! - Scorpion, система обнаружения вредоносных программ на основе Metagraph2vec » через оповещение Google Scholar, которое я настроил для « Вина по ассоциации: обнаружение крупномасштабных вредоносных программ с помощью майнинга файловых отношений Графики »». Если вас интересует, как я настраиваю свои оповещения Google, чтобы быть в курсе последних исследований в области науки о данных, см. Учебные ресурсы по науке о данных безопасности.

Гетерогенные информационные сети - это относительно простой способ моделирования одного или нескольких наборов данных в виде графа, состоящего из узлов и ребер, где 1) все узлы и ребра имеют определенные типы и 2) типы узлов ›1 или типы ребер› 1 (отсюда « Неоднородный »). Набор типов узлов и ребер представляет схему сети. Это отличается от однородных сетей, в которых все узлы и ребра имеют один и тот же тип (например, Facebook Social Network Graph, World Wide Web и т. Д.). HIN предоставляют очень богатую абстракцию для моделирования сложных наборов данных.

Ниже я рассмотрю важные концепции HIN на примере статьи о HinDom. HinDom использует данные о взаимоотношениях DNS из пассивного DNS, журналов запросов DNS и журналов ответов DNS для создания классификатора вредоносных доменов с использованием HIN. Они используют список Alexa Top 1K, Malwaredomains.com, Malwaredomainlist.com, DGArchive, Google Safe Browsing и VirusTotal для получения ярлыков. Ниже приведен пример схемы HIN, взятой из этой статьи.

Эта схема представляет три комбинированных набора данных (пассивный DNS, журналы запросов DNS, журналы ответов DNS) и моделирует три типа узлов (клиент, домен и IP-адрес) и шесть типов границ (сегмент, запрос, CNAME, аналогичный, разрешающий и такой же -домен). Вот расширенный пример и описания отношений:

  • Клиент-домен-запрос - матрица Q обозначает, что домен i запрашивается клиентом j.
  • Клиент-сегмент-Клиент - матрица N означает, что клиент i и клиент j принадлежат одному и тому же сегменту сети.
  • Domain-resolve-IP - матрица R обозначает, что домен i преобразован в IP-адрес j.
  • Домен-подобный-домен - матрица S обозначает сходство на уровне символов между доменами i и j.
  • Домен-cname-Domain - матрица C обозначает, что домен i и домен j находятся в записи CNAME.
  • IP-домен-IP - матрица D означает, что IP-адрес i и IP-адрес j однажды отображаются в один и тот же домен.

После того, как набор данных представлен в виде графика, перед построением моделей машинного обучения необходимо извлечь векторы признаков. Распространенным методом определения характеристик HIN является определение мета-путей или мета-графов по отношению к графу, а затем выполнение управляемого случайного обхода по определенным мета-путям / графам. Мета-пути представляют собой обходы графа через определенные последовательности узлов и ребер. Выбор мета-путей сродни проектированию функций в классическом машинном обучении, поскольку очень важно выбрать мета-пути, которые предоставляют полезные сигналы для любой прогнозируемой переменной. Как видно из многих статей по HIN, мета-пути / графы часто оцениваются по отдельности или в комбинации, чтобы определить их влияние на производительность модели. Управляемые случайные обходы мета-путей создают последовательность узлов (похожих на предложения слов), которые затем могут быть введены в модели, такие как Skipgram или Continuous Bag-of-Words (CBOW), для создания вложений. После того, как узлы представлены в виде вложений, можно использовать множество различных моделей (SVM, DNN и т. Д.) Для решения множества различных типов проблем (поиск по сходству, классификация, кластеризация, рекомендации и т. Д.). Ниже приведены мета-пути, используемые в статье HinDom.

Ниже представлена ​​архитектура HinDom, чтобы проиллюстрировать, как все эти концепции объединяются.

Ниже приведены некоторые ресурсы, которые я нашел полезными для получения дополнительной информации о гетерогенных информационных сетях, а также несколько документов, связанных с безопасностью, в которых использовался HIN.

Книги:

Статьи HIN:

Документы HIN, связанные с безопасностью:

Обнаружение вредоносных программ / анализ кода:

Майнинг Darkweb / Обнаружение мошенничества / Анализ социальных сетей:

Учебники:

Код:

Выдающиеся исследователи в области безопасности, использующие HIN:

Как всегда, обратная связь приветствуется, поэтому, пожалуйста, оставьте сообщение здесь, на Medium или @ me на twitter!

–Джейсон
@jason_trost

Примечание: изначально это было опубликовано в моем личном блоге covert.io 20.01.2020.