Интернет, каким мы его знаем, является динамичным, постоянно растущим объектом. В 2021 году Эрик Шмидт, генеральный директор Google, подсчитал, что «Интернет» — это 5 миллионов терабайт данных, и что Google проиндексировал едва ли 0,004%, или 200 терабайт. Даже этот массивный блок данных лишь символизирует часть Surface Web.

В Cyble мы гордимся тем, что имеем полную информацию о поверхностной паутине, глубокой паутине и темной паутине — из этих трех поверхностная паутина составляет ‹5% интернета. Само собой разумеется, что анализ этот массивный набор данных вручную невозможен, поскольку каждую минуту добавляются петабайты новых данных.

Здесь на помощь приходит искусственный интеллект (ИИ). ИИ используется как общий термин для нескольких типов алгоритмов обработки данных. Не будучи педантичным, любую систему, которая анализирует данные и генерирует выводы без явно запрограммированных правил, можно обобщить и назвать системой ИИ.

Наряду с алгоритмами аппаратные ресурсы являются неотъемлемой частью любой современной системы искусственного интеллекта. Системы ИИ должны быть распределенными, масштабируемыми и устойчивыми в отношении хранения и вычислений. Согласно многочисленным отчетам об опросах, за последнее десятилетие использование ИИ для кибербезопасности росло: более 70% организаций внедряют ИИ и отдают ему приоритет (1, 2).

ИИ идеально подходит для кибербезопасности

ИИ хорошо подходит для области Cyber ​​Threat Intelligence (CTI). Некоторые из важных проблем сбора и анализа CTI хорошо подходят для решения с помощью систем ИИ, как описано ниже:

  • Масштаб:более тысячи утечек данных в год (3), 4000 атак программ-вымогателей в день (4) и 4 миллиона украденных файлов в день (5), ручной анализ CTI невозможно. Распределенные вычисления и хранение данных в сочетании с искусственным интеллектом способны решить проблему масштабирования.
  • Корреляция и распознавание образов. Алгоритмы искусственного интеллекта способны запоминать терабайты данных и обнаруживать закономерности, распределенные во времени и пространстве.
  • Повторение.Аналитики угроз умеют идентифицировать определенные типы сущностей, что формирует основу для их углубленного анализа. Но это становится повторяющимся, если этот поиск похожих объектов приходится проводить вручную по тысячам документов. Также необходимо уметь идентифицировать новые объекты. Алгоритмы обработки естественного языка можно обучить идентифицировать любую уникальную или пользовательскую сущность, когда распознаватель сущностей обучается на нескольких тысячах или (в некоторых случаях) всего на десятках примеров. Таким образом, новые объекты можно обучать на лету с минимальными усилиями.
  • Ошибки и ложные срабатывания. Традиционные алгоритмы обработки данных основывались на правилах и в значительной степени полагались на запрограммированную логику, такую ​​как сопоставление ключевых слов. Это порождает множество ошибочных угроз и ложных срабатываний. Алгоритмы ИИ полагаются на контекст и семантику, что обеспечивает более высокую точность и низкий уровень ложных срабатываний. Они также изучают шаблоны, которые нельзя явно запрограммировать с помощью алгоритмов, основанных на правилах, что приводит к повышению точности и снижению ложных срабатываний для различных типов данных.
  • Непрерывное обучение.Системы искусственного интеллекта могут быть разработаны таким образом, чтобы учиться на непрерывной обратной связи. От моделей, обучающихся отфильтровывать ложные срабатывания, до моделей, обнаруживающих новые угрозы, модели адаптируются, чтобы стать более точными по мере поступления большего количества данных, динамически изменяясь, чтобы адаптироваться к ранее невидимым данным. Несмотря на то, что это большое преимущество, разработчики моделей должны четко осознавать предвзятость данных, дрейф модели и отравление данных, а также проектировать устойчивые системы.

Проблемы с развертыванием решений на основе ИИ и подходов к смягчению последствий

Несмотря на то, что ИИ может помочь с огромным масштабом и сложностью наборов данных, есть некоторые проблемы, которые необходимо преодолеть, чтобы оптимально использовать ИИ для обеспечения максимальной ценности. Ниже приведены некоторые из важных проблем и наши подходы к их преодолению:

  • Зашумленные данные. Эффективный CTI требует анализа данных из нескольких источников, таких как утечки данных, дампы данных программ-вымогателей, социальные сети и т. д., которые являются очень зашумленными источниками данных. Утечки данных и данные о программах-вымогателях полностью неформатированы и часто не имеют контекста. Тщательно спроектированные конвейеры данных с несколькими блоками предварительной обработки данных являются ключом к решению проблемы зашумления данных.
  • Уникальные форматы данных. До недавнего времени одной из самых больших проблем в компьютерном зрении и НЛП было отсутствие огромного количества размеченных данных для обучения глубоких сетей. Эта проблема во многих случаях была решена путем введения предварительно обученных моделей и трансферного обучения. К сожалению, большинство данных, доступных через утечки данных и форумы даркнета, не подходят для предварительно обученных моделей. Может возникнуть необходимость обучать модели ИИ с нуля или выборочно использовать предварительно обученные модели после тщательно организованной предварительной обработки. В зависимости от бизнес-ценности варианта использования проблема уникального формата данных также может быть смягчена, хотя и с большими усилиями.
  • Маркировка данных. Маркировка данных с самого начала была одной из самых больших проблем для контролируемого обучения компонента ИИ. Те же проблемы сохраняются и в области ИИ для кибербезопасности. Хорошо продуманное использование трансферного обучения с моделями с несколькими и несколькими выстрелами может установить базовые результаты и полезность. Затем можно использовать итеративный подход, при котором все больше ресурсов на маркировку постепенно расходуется по мере того, как ценность модели становится все более очевидной.
  • Стоимость. Обучение и развертывание моделей ИИ влечет за собой значительные затраты на вычисления и хранение. Очень важно понимать ценность проблемы для бизнеса и анализировать, требуется ли ИИ для решения конкретной задачи. Во многих случаях проблему НЛП может решить простое регулярное выражение, а не последовательная модель. При выборе модели важно отклониться от академического или исследовательского образа мышления, когда увеличение производительности даже на долю процентного пункта может быть значительным и может привести к новым направлениям исследований, но это не имеет практической ценности при развертывании системы в реальных условиях. Лошади для курсов обычно контролируют расходы.
  • Отравление данными. С повсеместным внедрением ИИ исследователями CTI злоумышленники также стали более изощренными. Для систем непрерывного обучения злоумышленники намеренно отправляют данные таким образом, чтобы манипулировать моделью ИИ и делать ложные прогнозы. Важно поддерживать наблюдаемость системы и включать в проект проекты с участием человека, где это уместно.

Мы все еще находимся на начальном этапе реализации всего потенциала ИИ для CTI. Несмотря на удивительные результаты, которые дают современные системы ИИ, они будут продолжать развиваться, чтобы приносить все большую и большую ценность для бизнеса. Наряду с этим, симбиотическая бизнес-модель, в которой используются сложные системы ИИ под контролем талантливых специалистов по кибербезопасности, оказалась чрезвычайно эффективной для Cyble. и его набор предложений.

Об авторе

Удай Киран Пуллети — старший директор по искусственному интеллекту в Cyble. Он является основным технологом искусственного интеллекта с более чем 15-летним опытом в разработке новых идей, разработке алгоритмов и обеспечении производства сложных систем. Удай руководил несколькими продуктами в области юридических технологий, умного дома, умного города и умной промышленности. Ранее, будучи директором по искусственному интеллекту в Cognition IP, Удай руководил разработкой продуктов НЛП, которые повышают эффективность патентных поверенных, когда речь идет о патентном поиске и составлении проектов. В качестве главного научного сотрудника Honeywell Global Labs он руководил различными инициативами в области искусственного интеллекта, в том числе облачной платформой для обнаружения и классификации объектов, видео- и аудиосистемой безопасности для приложений «умный дом» и «умный город», приложениями для проверки на базе БПЛА с несколькими датчиками и платформа отслеживания местоположения в помещении, среди прочего.

С Uday можно связаться онлайн по адресу https://www.linkedin.com/in/udaypulleti и через веб-сайт нашей компании по адресу http://www.cyble.com/.