Итак, вы установили брандмауэр для защиты вашей сети.

Наконец-то можно откинуться на спинку кресла и перевести дух. Ваши данные в безопасности… верно?

В этот момент вы понимаете, что это несбыточная мечта. Потребуется постоянный анализ данных, чтобы адаптироваться к угрозам в режиме реального времени и обеспечить безопасность вашей сети.

Но ваши специалисты по обработке и анализу данных или специалисты по безопасности никак не могут разобраться с тысячами предупреждений о безопасности, поступающих каждый день.

Итак, что нужно сделать?

Мы обратились к Джиту Датте, директору по науке о данных в Adlumin, чтобы узнать, что он думает. В этом разговоре он рассказывает, как его команда использует слой науки о данных и неконтролируемое обучение, чтобы выявлять угрозы безопасности и адаптироваться к постоянному потоку атак, с которыми сети сталкиваются каждый день.

Разговор ниже был изменен по длине и содержанию. Какую роль машинное обучение играет в обнаружении угроз сетевой безопасности?

У вас может быть очень хорошо защищенная сеть, но, как мы знаем, атаки все еще случаются. Иногда эти атаки могут быть коварными и иметь далеко идущие последствия с точки зрения кражи данных или нарушения повседневной деятельности организации.

Мы в Adlumin считаем, что правил безопасности недостаточно для защиты ИТ. сеть. Брандмауэр, например, будет генерировать тысячи предупреждений в день. Специалисты по безопасности не могут отследить такое количество потенциальных клиентов.

Вот где вступает наука о данных.

Вам нужен слой науки о данных, чтобы повысить отношение сигнал/шум. Это сделает задачу гораздо более управляемой. После того, как алгоритм просеет данные и выявит некоторую потенциально вредоносную активность, вы получите целевую многофункциональную среду, с которой специалисты по безопасности могут работать и выполнять последующий анализ. Наука о данных сужает данные. Это позволяет аналитикам отфильтровать шум и сосредоточить свои специальные знания и опыт на наиболее важных областях.

Наука о данных играет роль, даже если вы не поймаете атаку в режиме реального времени.

После взлома есть много направлений расследования, которым вы должны следовать. Вам необходимо систематически отслеживать электронные письма и другие контакты, которые ваши системы или машины имели с злоумышленником. Оттуда вы можете нарисовать периметр и определить, какой ущерб был нанесен. Это необходимый первый шаг, прежде чем вы сможете составить план защиты своей сети от будущих атак.

С какими основными проблемами вы сталкиваетесь при применении машинного обучения для обнаружения угроз безопасности?

Эти И.Т. угрозы безопасности постоянно развиваются. Большинство типов угроз не имеют шаблона сигнатуры. Не существует набора действий или последовательности событий, которые немедленно сигнализируют о вредоносной атаке. Ваш алгоритм должен быть более гибким по дизайну, а не основанным на правилах. Например, у вас может быть отдельный пользователь, входящий в систему на машине, к которой он никогда раньше не обращался. Вы можете сказать, что это красный флаг, и написать алгоритм, который будет предупреждать вас об этих «новых логинах». Но как насчет других лиц, таких как ваши сетевые администраторы, которые часто входят в систему на машинах, к которым у них раньше не было доступа?

Вместо того, чтобы основываться на правилах, ключевой задачей является более глубокое определение того, что является ненормальным.

Еще одна проблема в нашей области заключается в том, что нам не хватает помеченных наборов данных. Мы видим много ненормальных вещей в наших клиентских данных, но обратной связи нет. Исторических баз данных вредоносных атак в этой области на самом деле не существует. Если вы работаете в другой отрасли, например, в области обнаружения мошенничества с кредитными картами, существует множество баз данных, которые четко идентифицируют случаи мошенничества. Таким образом, вы можете обучить модель учиться на этих примерах, задав вопрос: «Каковы были сигналы мошенничества?»

В сетевой безопасности у нас не так много исторических баз данных. Это означает, что мы должны в первую очередь полагаться на подход машинного обучения (ML), который называется обучение без учителя. При таком подходе мы пытаемся сгруппировать данные таким образом, чтобы точка данных, представляющая вредоносную атаку, находилась отдельно от кластера, в котором существует все остальное. Это означает, что график ежедневной активности пользователя, учетные данные которого могли быть украдены, будет выглядеть ненормально.

При таком подходе неконтролируемого обучения вы можете получить алгоритмы, менее привязанные к истории и более адаптируемые к новому шаблону атаки. Проблема в том, что трудно проверить, насколько хорошо работают эти неконтролируемые модели. Вы должны играть на слух.

И последняя проблема заключается в том, что большая часть науки о данных связана с преобразованием вещей, которые не являются числами, в числа. Например, вы можете дать числовое представление словам или картинкам. Этот тип числового представления немного сложнее реализовать в ИТ. безопасности, но он обеспечивает большую ценность и понимание.

Как во всем этом помогает облако?

Облако играет огромную роль. Мы не смогли бы делать то, что мы делаем здесь, в Adlumin, без Cloud. Мы обрабатываем миллиарды точек данных каждый день и предоставляем эти уровни безопасности по разумной цене благодаря облачным вычислениям.

Мы создали эту бессерверную архитектуру, которая может масштабироваться практически мгновенно. Мы создали озера данных в облаке, которые могут хранить огромные объемы данных. Объем хранилища и вычислительная мощность являются очень важными столпами того, чем мы занимаемся в Adlumin.

Первоначально опубликовано на https://www.myhatchpad.com.