Обнаружение вредоносного трафика с помощью машинного обучения

Пол Ригор, доктор философии, научный сотрудник, и Харкират Беди, доктор философии, научный сотрудник

Будущее управления угрозами

Машинное обучение предлагает уникальную возможность автоматизировать исследования безопасности и опережать угрозы безопасности приложений. В этой статье мы поделимся нашим исследованием применения нейронных сетей к данным производственного трафика, а также некоторыми идеями для будущих приложений. Применяя методы прогнозного анализа к входящим запросам на нашу платформу, мы разрабатываем новые способы обнаружения, анализа и предотвращения вредоносного трафика.

Включение результатов алгоритмов машинного обучения в наш продукт WAF позволяет нам создать более надежную систему обнаружения угроз, позволяющую более точно обнаруживать вредоносный трафик на нашу платформу. В сочетании с гибкостью платформы Dual WAF мы можем быстро включить эту информацию непосредственно в производственную конфигурацию для реального трафика клиента, чтобы помочь уменьшить угрозы. Машинное обучение помогает нам разрабатывать гибкие системы обнаружения и смягчения угроз, которые готовы к росту, чтобы реагировать на возникающие угрозы.

Управление угрозами - помощь клиентам в устранении угроз и экономии денег

Признание разницы между легитимным и вредоносным трафиком - это постоянный акт балансирования. Фактические пользователи ожидают получения запрошенных данных в режиме реального времени, в то время как вредоносный трафик должен устраняться так же быстро. Ситуация усложняется по мере роста трафика. Нашим клиентам нужны системы, которые принимают правильные решения - быстро, последовательно и точно.

База данных репутации помогает отслеживать входящие запросы и отфильтровывать клиентов с историей плохих действий. Базы данных репутации требуют значительного объема данных для создания и времени для уточнения. Из-за этого они, как правило, отстают от развивающихся и возникающих угроз, особенно для автоматизированного трафика, также называемого трафиком ботов. Машинное обучение дает возможность масштабировать эти возможности, не полагаясь на дорогостоящий ручной анализ огромных объемов данных.

Машинное обучение в сетевой среде

Машинное обучение применяет алгоритмы для поиска шаблонов в существующих данных, а затем использует эти производные шаблоны для классификации новых данных. Шаги в этом процессе:

Кластеризация точек данных в схожих поведенческих группах

Обучение без учителя генерирует кластеры запросов, основанные на различном поведении пользователей. У каждого запроса есть своя подпись, такая как время между запросами, общее количество уникальных конечных точек, IP-адрес и даже предыдущие метаданные, такие как репутационный рейтинг. Ключевая идея состоит в том, что точки данных в каждом кластере демонстрируют аналогичное поведение.

2. Обучение классификатора распознаванию и назначению новых запросов этим группам.

Нейронные сети отображают свойства каждого класса и соответствующие им метки классов. Эти нейронные сети обучаются с использованием помеченных данных трафика, чтобы последовательно идентифицировать запросы с желаемыми параметрами. Затем они тестируются с новыми, немаркированными данными трафика.

3. Проверка результатов

Прогнозы нейронной сети проверяются на основе данных, предоставленных третьими сторонами, такими как OWASP, Trustwave, и на основе общих уязвимостей и уязвимостей (CVE). Независимая проверка клиентов также является хорошей основой для сравнения.

В сетевой среде это может привести к лучшему анализу пользовательского трафика и более точной классификации репутации. Системы активного машинного обучения могут повторно использовать эти идеи для еще больших улучшений.

Автоматизация безопасности основана на постоянной оценке всего входящего трафика. В этой среде алгоритмы машинного обучения способны анализировать большие объемы входных данных и получать полезную информацию (надежная база данных о плохих клиентах / IP-адресах) на основе данных трафика в реальном времени. Это имеет широкий спектр сетевых приложений.

Применение машинного обучения для повышения безопасности

Инновации необходимо применять правильно, чтобы получить от них максимальную пользу. Машинное обучение лучше всего работает в средах с:

Высокая плотность данных
Четкие, действенные результаты
Поддающаяся количественной оценке вариация

К счастью, в Интернете есть много идеальных сред для такой оптимизации. Сеть доставки контента (CDN), в частности, имеет доступ к большим объемам данных интернет-трафика, что идеально подходит для применения прогнозного анализа.

Наши эксперименты с использованием машинного обучения для обнаружения вредоносного трафика

Исследовательская группа Verizon Media использует полууправляемый подход как лучший способ эффективно анализировать большие объемы сетевого трафика.

Обучая алгоритм на основе исторических данных о производственном трафике, математическая модель получает преимущество при создании классификации данных. Последующие данные можно классифицировать с помощью существующих индексов, и можно получить новые кластеры, которые более эффективно группируют данные. По мере появления моделей дифференциации трафика их можно тестировать по новым журналам и сравнивать с существующими наборами правил безопасности на предмет точности. Улучшения, полученные на основе модели, можно интегрировать в набор правил, и процесс можно повторить.

Наши предварительные эксперименты по применению машинного обучения к производственным журналам трафика дали многообещающие результаты. В наших экспериментах мы брали реальные исторические данные о трафике за активный период времени, а затем работали с ведущими специалистами по безопасности, чтобы выявить плохие запросы, в том числе те, которые могли пройти мимо текущих методов фильтрации. Затем мы сравнили его с нашими результатами нашего алгоритма машинного обучения и обнаружили, что он превосходит ручной анализ данных трафика в различении хорошего трафика от вредоносного.

При предоставлении необработанных данных о трафике (и без наставничества после анализа) наша модель имела 100% -ный коэффициент обнаружения для предсказаний с высокой степенью достоверности. Вместо сопоставления IP-адресов с существующим черным списком он смог анализировать запросы на основе их атрибутов запроса (например, пользовательских агентов, параметров запроса и значений файлов cookie) и возвращать классификации в производственной среде, которые полностью коррелировали с нашими выводами, сделанными экспертами. . Даже в сценариях с низкой степенью достоверности наша модель смогла выдать результаты, которые превосходят существующие методы идентификации злонамеренного клиента и создания репутационной базы данных.

Как машинное обучение сортирует и анализирует данные о трафике: кластеризация, обучение, проверка и уточнение

Алгоритмы машинного обучения могут анализировать данные о трафике на основе различных типов поведения запросов. Хотя большинство современных наборов правил безопасности основано на сигнатурах, сигнатуры атак ботов постоянно меняются. Вместо этого исследователям безопасности часто приходится постоянно проверять свои данные о трафике и вручную генерировать настраиваемые правила безопасности, чтобы уменьшить этот автоматический трафик.

Наше исследование направлено на выявление вредоносного трафика до того, как он станет проблемой. В приведенном ниже примере мы имеем дело с производственными журналами из нашего WAF, собранными за три недели. Используя инструмент внутренней аналитики, мы можем работать с необработанными данными журнала в режиме реального времени. На графике ниже мы упростили это до двух осей (время между запросами и уникальные конечные точки), но в реальных экспериментах мы оценили входящие данные более чем по 300 различным свойствам.

Шаг 1. Кластеризация

Немаркированные данные трафика группируются в соответствии с общими метаданными и поведенческими шаблонами. Кластеры образуются, когда группы запросов демонстрируют сходство по разным переменным.

Шаг 2. Обучение классификатора

Затем кластеризованные данные анализируются относительно помеченных данных трафика. Эти данные состоят из исторических определений вредоносных запросов (занесенных в черный список IP-адресов), подготовленных экспертами по безопасности. Система машинного обучения разрабатывает классификатор, который может относить кластеры запросов к соответствующим категориям; в данном случае - бинарный классификатор для обнаружения вредоносных запросов. Благодаря настройке гиперпараметров мы смогли оптимизировать такие показатели перекрестной проверки, как точность.

Шаг 3. Подтверждение

Мы тестируем классификатор в новых журналах WAF, чтобы обнаружить известное поведение и обнаружить новый IP-адрес клиента, демонстрирующий вредоносное поведение. Классификатор также предназначен для выявления ложных срабатываний и проверки того, что легитимный трафик не заблокирован. Результаты также могут быть подтверждены путем сравнения с текущими данными о трафике клиентов и внешними базами данных репутации в этом эксперименте, проведенном Cisco Talos Intelligence Group.

Шаг 4 - Исправьте и обновите

Этот цикл машинного обучения позволяет системе со временем адаптироваться и совершенствоваться. Это приводит к прогрессивным улучшениям в эффективном занесении в черный список, а также к быстрому смягчению возникающих угроз.

Как машинное обучение может улучшить меры безопасности

Основным преимуществом машинного обучения является его способность делать немедленные выводы из больших блоков данных. Законный веб-трафик потенциально может состоять из запросов от миллионов одновременных пользователей. Каждый из этих запросов можно проверять индивидуально, но при агрегировании они кажутся случайными и хаотичными.

Вредоносные боты или автоматизированный трафик пользуются этим хаосом, изменяя свою подпись запроса, чтобы имитировать подписи реальных запросов пользователей. Для человека-наблюдателя обнаружение этих ботов было бы похоже на выделение одного странного пикселя на экране, полном статического электричества. С другой стороны, алгоритмы машинного обучения полностью способны быстро классифицировать и классифицировать миллионы запросов и легко помогают выявлять несоответствующее поведение.

Для сетевых приложений это означает понимание тонких различий между законным и вредоносным трафиком и разработку плана действий для надлежащей обработки этого трафика. Алгоритмы должны быстро распознавать тип и частоту входящих атак и выполнять действия по смягчению этих запросов, не вызывая ложных срабатываний на фактические запросы пользователей.

Традиционная сетевая безопасность принимает определенную степень неопределенности как данность и должна иметь дело с определенным процентом ложноотрицательных результатов, а не с риском ложного срабатывания, которое может вызвать прерывание обслуживания. Однако машинное обучение идеально подходит для работы в этой серой зоне и позволяет быстро принимать решения без ручного ввода. Мощный мультиарендный движок, такой как walfz, может использовать эти идеи для разработки более точных правил безопасности.

Машинное обучение для улучшения исследований в области безопасности

Там, где машинное обучение пытается автономно реагировать на входящие данные, классическое программирование полагается на корректировки и новый код, написанный людьми-операторами. Каждый подход предлагает уникальные преимущества в разных средах.

Машинное обучение никогда не заменит опытную команду безопасности. Вместо этого он предоставляет компаниям высокоразвитые дополнительные инструменты для регулирования роста трафика при сохранении организационной гибкости.

Дальнейшие шаги - интеграция и автоматизация WAF

В то время как наше текущее исследование сосредоточено на применении алгоритмов машинного обучения к нашему историческому трафику и данным WAF для создания более качественной базы данных о репутации, мы изучаем новые способы использования машинного обучения в нашем продукте WAF в реальной среде.

Вводя уровень машинного обучения в наш WAF, мы видим потенциал одновременного обновления и уточнения наборов правил WAF непосредственно в ответ на входящий трафик. Это не только позволит клиентам настраивать и контролировать свои клиентские запросы, но и адаптивная аналитика трафика позволит в реальном времени реагировать на изменения в данных вредоносного трафика.

Благодаря платформе тестирования, работающей с производственными данными, наша возможность Dual WAF обеспечивает оптимальную платформу для сравнения этих производных наборов правил машинного обучения с текущим производственным набором правил WAF. С помощью waflz заказчик может A / B тестировать наборы правил с реальным трафиком и быстро уточнять свои конфигурации безопасности. Двойной WAF с машинным обучением ставит сети впереди производных форм вредоносного трафика, отфильтровывая вредоносные запросы до того, как они станут проблемой.

Заключение

Машинное обучение дает исследователям угроз мощные инструменты для автоматизации фильтрации, выявления злоумышленников и создания более надежных наборов правил WAF. Наши эксперименты с машинным обучением показали, что их можно эффективно обучить автономному распознаванию вредоносного трафика с высокими показателями успеха. Эта возможность может быть интегрирована в WAF в форме более надежной базы данных репутации. Автоматически обнаруживая атаки на основе моделей поведения, мы можем смягчать возникающие угрозы, сводя к минимуму ложные срабатывания, вызывающие нарушение работы.

Эффективная сетевая безопасность требует комплексного подхода к управлению угрозами. Вредоносный трафик увеличивает стоимость ИТ-операций, используя уязвимости и вызывая утечку данных и прерывание обслуживания. В Verizon Media мы тщательно изучаем вопросы безопасности в Интернете, чтобы помочь нашим клиентам опережать эти угрозы. Наши исследования в области машинного обучения создают важную основу для будущего наших продуктов безопасности.

Мы будем обсуждать наше решение безопасности на выставке IBC2019, Амстердам, 13–17 сентября. Чтобы узнать больше или назначить встречу, нажмите здесь.

Обнаружение вредоносного трафика с помощью машинного обучения

Вопросы по теме