Кластеризация K-средних
Кластеризация K-средних – это алгоритм, используемый в неконтролируемом машинном обучении для группировки похожих точек данных вместе (в k кластеров). или группы) и обнаруживать основные закономерности, чтобы делать выводы из наборов данных, используя только входные функции, не обращаясь к известным результатам.
Для алгоритма k-средних мы определяем число k, которое относится к количеству кластеров, которые нам нужны в наборе данных.
Это алгоритм на основе центроида, в котором каждый кластер связан с центроидом.
Одним из реальных вариантов использования алгоритма кластеризации K-средних является домен безопасности в инструментах SIEM, таких как Splunk:
Что такое SIEM?
SIEM означает информация о безопасности и управление событиями. ПО SIEM обеспечивает анализ предупреждений системы безопасности в режиме реального времени, генерируемых приложениями и сетевым оборудованием, для обнаружения и анализа сложных угроз с использованием глобальных аналитических данных.
Как работает SIEM?
SIEM собирает и сортирует данные по категориям, например: действия вредоносного ПО, неудачные и успешные входы в систему. Когда SIEM идентифицирует угрозу с помощью мониторинга сетевой безопасности, он генерирует предупреждение и определяет уровень угрозы на основе заранее определенных правил.
Например, если кто-то пытается войти в аккаунт 10 раз за 10 минут, это нормально, а 100 раз за 10 минут может быть помечено как попытка атаки. Таким образом, он обнаруживает угрозы и создает предупреждения системы безопасности.
СПЛАНК
Splunk – это программное обеспечение SIEM, которое позволяет пользователям отслеживать, сканировать, анализировать и визуализировать частично структурированные данные и журналы, созданные различными процессами, в режиме реального времени.
Пример:
Атака типа "отказ в обслуживании" (DOS):
Атака типа «отказ в обслуживании» (DoS) — это атака, направленная на отключение сервера, что делает его недоступным для клиентов путем наполнения сервера трафиком.
Атаку DOS можно отследить, просматривая журналы доступа к веб-серверу в режиме реального времени.
Если с помощью журналов доступа наблюдается, что сервер снова и снова получает слишком много запросов с одного и того же IP-адреса, это означает, что это не человек, а машина отправляет запросы на наш сервер снова и снова, чтобы залить сервер трафиком.
Поэтому мы можем использовать такие инструменты, как Splunk, для отслеживания DOS-атак, наблюдая за шаблоном запросов.