В этом посте исследуются гетерогенные информационные сети (HIN) и приложения для кибербезопасности.
В течение последних нескольких месяцев я исследовал варианты использования гетерогенных информационных сетей (HIN) и кибербезопасности. Я впервые столкнулся с HIN после того, как обнаружил эту статью: « Попался: хитрое вредоносное ПО! - Scorpion, система обнаружения вредоносных программ на основе Metagraph2vec » через оповещение Google Scholar, которое я настроил для « Вина по ассоциации: обнаружение крупномасштабных вредоносных программ с помощью майнинга файловых отношений Графики »». Если вас интересует, как я настраиваю свои оповещения Google, чтобы быть в курсе последних исследований в области науки о данных, см. Учебные ресурсы по науке о данных безопасности.
Гетерогенные информационные сети - это относительно простой способ моделирования одного или нескольких наборов данных в виде графа, состоящего из узлов и ребер, где 1) все узлы и ребра имеют определенные типы и 2) типы узлов ›1 или типы ребер› 1 (отсюда « Неоднородный »). Набор типов узлов и ребер представляет схему сети. Это отличается от однородных сетей, в которых все узлы и ребра имеют один и тот же тип (например, Facebook Social Network Graph, World Wide Web и т. Д.). HIN предоставляют очень богатую абстракцию для моделирования сложных наборов данных.
Ниже я рассмотрю важные концепции HIN на примере статьи о HinDom. HinDom использует данные о взаимоотношениях DNS из пассивного DNS, журналов запросов DNS и журналов ответов DNS для создания классификатора вредоносных доменов с использованием HIN. Они используют список Alexa Top 1K, Malwaredomains.com, Malwaredomainlist.com, DGArchive, Google Safe Browsing и VirusTotal для получения ярлыков. Ниже приведен пример схемы HIN, взятой из этой статьи.
Эта схема представляет три комбинированных набора данных (пассивный DNS, журналы запросов DNS, журналы ответов DNS) и моделирует три типа узлов (клиент, домен и IP-адрес) и шесть типов границ (сегмент, запрос, CNAME, аналогичный, разрешающий и такой же -домен). Вот расширенный пример и описания отношений:
- Клиент-домен-запрос - матрица Q обозначает, что домен i запрашивается клиентом j.
- Клиент-сегмент-Клиент - матрица N означает, что клиент i и клиент j принадлежат одному и тому же сегменту сети.
- Domain-resolve-IP - матрица R обозначает, что домен i преобразован в IP-адрес j.
- Домен-подобный-домен - матрица S обозначает сходство на уровне символов между доменами i и j.
- Домен-cname-Domain - матрица C обозначает, что домен i и домен j находятся в записи CNAME.
- IP-домен-IP - матрица D означает, что IP-адрес i и IP-адрес j однажды отображаются в один и тот же домен.
После того, как набор данных представлен в виде графика, перед построением моделей машинного обучения необходимо извлечь векторы признаков. Распространенным методом определения характеристик HIN является определение мета-путей или мета-графов по отношению к графу, а затем выполнение управляемого случайного обхода по определенным мета-путям / графам. Мета-пути представляют собой обходы графа через определенные последовательности узлов и ребер. Выбор мета-путей сродни проектированию функций в классическом машинном обучении, поскольку очень важно выбрать мета-пути, которые предоставляют полезные сигналы для любой прогнозируемой переменной. Как видно из многих статей по HIN, мета-пути / графы часто оцениваются по отдельности или в комбинации, чтобы определить их влияние на производительность модели. Управляемые случайные обходы мета-путей создают последовательность узлов (похожих на предложения слов), которые затем могут быть введены в модели, такие как Skipgram или Continuous Bag-of-Words (CBOW), для создания вложений. После того, как узлы представлены в виде вложений, можно использовать множество различных моделей (SVM, DNN и т. Д.) Для решения множества различных типов проблем (поиск по сходству, классификация, кластеризация, рекомендации и т. Д.). Ниже приведены мета-пути, используемые в статье HinDom.
Ниже представлена архитектура HinDom, чтобы проиллюстрировать, как все эти концепции объединяются.
Ниже приведены некоторые ресурсы, которые я нашел полезными для получения дополнительной информации о гетерогенных информационных сетях, а также несколько документов, связанных с безопасностью, в которых использовался HIN.
Книги:
- Майнинг гетерогенных информационных сетей: принципы и методики
- Анализ гетерогенных информационных сетей и приложения
Статьи HIN:
- Майнинг гетерогенных информационных сетей - подход структурного анализа
- HIN2Vec: исследуйте мета-пути в гетерогенных информационных сетях для обучения репрезентативности
- PathSim: поиск сходства Top-K на основе мета-путей в гетерогенных информационных сетях
- Ранговая кластеризация гетерогенных информационных сетей со схемой звездообразной сети
- Metapath2vec: изучение масштабируемых представлений для гетерогенных сетей
- Обзор анализа гетерогенных информационных сетей
- Состязательное обучение в гетерогенных информационных сетях
Документы HIN, связанные с безопасностью:
Обнаружение вредоносных программ / анализ кода:
- AiDroid: когда гетерогенная информационная сеть сочетается с глубокой нейронной сетью для обнаружения вредоносных программ для Android в реальном времени
- Попался: хитрая вредоносная программа! - Scorpion Система обнаружения вредоносных программ на основе Metagraph2vec
- HinDroid: интеллектуальная система обнаружения вредоносных программ для Android, основанная на структурированной гетерогенной информационной сети
- Сделайте уклонение сложнее: интеллектуальная система обнаружения вредоносных программ для Android
- DeepAM: гетерогенная среда глубокого обучения для интеллектуального обнаружения вредоносных программ
- HinDom: надежная система обнаружения вредоносных доменов на основе гетерогенной информационной сети с трансдуктивной классификацией
- ITrustSO: интеллектуальная система для автоматического обнаружения небезопасных фрагментов кода при переполнении стека
Майнинг Darkweb / Обнаружение мошенничества / Анализ социальных сетей:
- Идентификация ключевых игроков на подпольных форумах с использованием инфраструктуры встраивания атрибутированной гетерогенной информационной сети
- Ваш стиль - ваша идентичность: использование стилей письма и фотографии для идентификации торговцев наркотиками на рынках даркнета через атрибутивную гетерогенную информационную сеть
- IDetector: автоматизация анализа подпольных форумов на основе гетерогенной информационной сети
- Обнаружение обналичивающих пользователей на основе атрибутированной гетерогенной информационной сети с иерархическим механизмом внимания
- IDev: повышение безопасности социального кодирования за счет межплатформенной идентификации пользователей между GitHub и Stack Overflow
Учебники:
Код:
- Github.com/zhoushengisnoob/HINE - Встраивание гетерогенной информационной сети: статьи и реализации кода.
- Github.com/stellargraph/stellargraph (см. Stellargraph-metapath2vec.ipynb)
- Github.com/hetio/hetnetpy - библиотека HIN
- Github.com/hetio/hetmatpy - библиотека HIN в виде матриц.
- Github.com/csiesheep/hin2vec
Выдающиеся исследователи в области безопасности, использующие HIN:
Как всегда, обратная связь приветствуется, поэтому, пожалуйста, оставьте сообщение здесь, на Medium или @ me на twitter!
–Джейсон
@jason_trost
Примечание: изначально это было опубликовано в моем личном блоге covert.io 20.01.2020.