Укрепление доверия к детекторам вредоносного ПО для машинного обучения

Можем ли мы доверять решению, принятому системами машинного обучения?

Каждый раз, когда мы создаем более мощную технологию, мы создаем новый уровень для изменения мира. В искусственном интеллекте мы не программируем машины, которые они обучаются сами по себе. Одно из самых больших заблуждений об ИИ заключается в том, что это сверхразумное существо, или мы назвали обобщенный ИИ, который знает все и умнее всех нас, и это полное заблуждение. Несмотря на этот прогресс, остается еще много проблем, которые потребуют новых научных открытий.

«Доверие достигается, когда действия встречаются со словами». - Крис Батлер

Вступление

Широкое распространение новых коммуникационных технологий неизбежно требует постоянного совершенствования средств и способов защиты информации в широком спектре цифровых систем, которые действуют практически во всех сферах современной общественной жизни, от банковского дела, производства до оборонного и государственного секторов. Эти системы характеризуются большим разнообразием киберугроз. Фактически, компьютерные сети и Интернет стали основным инструментом для распространения вредоносных программ авторами вредоносных программ. Среди экспертов по кибербезопасности существует общее мнение, что инструменты и системы защиты от вредоносных программ, основанные на искусственном интеллекте и машинном обучении, будут решением для современных атак вредоносного ПО. Однако создание совершенной системы обнаружения вредоносных программ, которая обнаруживает все типы вредоносных программ без ложных срабатываний, на данный момент кажется невозможным.

Мы знаем, что аналитики кибербезопасности всегда предпочитают решения, которые можно интерпретировать и понять как обнаружение на основе правил или сигнатур. Вот почему основная цель данной статьи - рассмотреть текущее состояние дел в области обнаружения вредоносных программ, указать их ограничения и обсудить возможные решения для повышения ДОВЕРИЯ к системам искусственного интеллекта.

Обзор машинного обучения для обнаружения вредоносных программ
Проблемы, ограничивающие успех обнаружения вредоносных программ с помощью машинного обучения
Решения для преодоления трудностей

Обзор машинного обучения для обнаружения вредоносных программ

Машинное обучение - это инструмент анализа данных, используемый для эффективного выполнения определенных задач без явных инструкций. В последние годы возможности машинного обучения использовались для разработки методов статического и динамического анализа для обнаружения вредоносных программ. В этом контексте я расскажу о некоторых современных достижениях в области обнаружения вредоносных программ с использованием подхода машинного обучения.

Hassen et al. предложили новый метод классификации вредоносных программ, они использовали статический анализ для классификации экземпляров вредоносных программ по новым известным семействам вредоносных программ. Путем извлечения функций из дизассемблированных вредоносных двоичных файлов и использования алгоритма случайного леса для классификации вредоносных программ с использованием извлеченных функций (Hassen et al., 2017). Используя набор данных из 10260 экземпляров вредоносных программ, они сообщили о точности 99,21%.
Naeem et al. предложил метод статического анализа для обнаружения вредоносных программ Интернета вещей (Naeem et al., 2018). Предлагаемый метод преобразует файл вредоносной программы в изображение в оттенках серого и извлекает набор визуальных характеристик из изображения вредоносной программы для обучения классификатора SVM, который может различать семейства вредоносных программ с помощью визуальных функций. Используя набор данных из 9342 образцов, принадлежащих 25 семействам вредоносных программ, они сообщили о точности 97,4%.
Было предложено несколько работ по обнаружению вредоносных приложений для Android с использованием методов статического анализа. Sahin et al. предложила модель обнаружения вредоносных программ Android, которая использует разрешение приложения для обнаружения вредоносных приложений (OSahn et al., 2018). Они использовали разрешения, требуемые приложением, с функцией взвешенного расстояния и классификатором KNN и Naive Bayes для обнаружения вредоносных приложений. Они сообщили о точности до 93,27%.
Йео и др. предложили новый метод обнаружения вредоносных программ путем отслеживания вредоносного поведения в сетевом трафике (Yeo et al., 2018). Они разработали 35 функций для описания вредоносного трафика экземпляров вредоносных программ. Они протестировали несколько алгоритмов машинного обучения, включая CNN, MLP, SVM и случайный лес. Предложенный метод достиг точности выше 85% при использовании CNN или случайного леса.

Эти методы направлены на повышение качества и производительности систем обнаружения вредоносных программ для создания надежной системы.

Проблемы, ограничивающие успех обнаружения вредоносных программ с помощью машинного обучения

Хотя использование машинного обучения для обнаружения вредоносных программ показало многообещающие результаты как в статическом, так и в динамическом анализе, существуют серьезные проблемы, ограничивающие успех детекторов вредоносных программ на основе машинного обучения.

1. Стоимость обучения

Первая проблема - это стоимость обучения и обновления вредоносного ПО в производственной среде. К сожалению, обнаружение вредоносных программ не похоже на другие области, в которых успешно применяются методы машинного обучения, такие как компьютерное зрение, обработка естественного языка и электронная коммерция. Экземпляры вредоносных программ развиваются и меняют свое поведение в течение короткого периода времени; Некоторые исследования, проведенные поставщиками защиты от вредоносных программ, показали, что новый экземпляр вредоносного ПО может изменить свое поведение менее чем за 24 часа с момента его выпуска.
Это означает, что нам необходимо часто переобучать наши детекторы вредоносных программ, чтобы они могли обнаруживать новые и видоизмененные экземпляры вредоносных программ. . Следовательно, адаптируемость моделей машинного обучения для обнаружения вредоносных программ является критическим требованием, а не просто вспомогательной возможностью.
В отличие от компьютерного зрения, НЛП и других областей, в которых используется машинное обучение, экземпляры вредоносных программ продолжают развиваться и изменяться. В основном это требует переобучения моделей машинного обучения на производстве, что является дорогостоящей и сложной задачей. Поэтому при использовании машинного обучения для обнаружения вредоносных программ нам нужно думать иначе.

2. Знакомство с детектором вредоносных программ.

Аналитики кибербезопасности всегда предпочитают интерпретируемые и понятные решения. Потому что им необходимо настраивать и оптимизировать эти решения для смягчения и контроля эффекта ложных срабатываний и ложноотрицательных результатов. Понимать и интерпретировать модели машинного обучения - новая задача для них.
Любой детектор вредоносных программ будет генерировать ложные срабатывания. И мы знаем, что аналитики вредоносных программ не примут эти детекторы вредоносных программ черного ящика. Вот почему нам нужно сосредоточиться на интерпретации моделей машинного обучения, чтобы она была приемлемой для аналитика вредоносных программ, который не обязательно должен быть экспертом в области машинного обучения.

3. Состязательное вредоносное ПО

Модели машинного обучения известны недостаточной устойчивостью к входным данным, созданным злоумышленником. Вы можете ознакомиться с моей предыдущей статьей о состязательных атаках здесь. Фактически, систему обнаружения вредоносных программ с использованием машинного обучения можно обойти, используя образцы вредоносного ПО. Kolosnjaji et al. показали, что с помощью интеллектуальной атаки уклонения они могут победить систему обнаружения глубокого обучения, предложенную в (Raff et al., 2017).

Решения для преодоления этих проблем

Чтобы преодолеть проблемы, которые мы обсуждали ранее, я предложу несколько новых решений.

Новый подход, вдохновленный архитектурой микросервисов. Это означает, что для обнаружения вредоносных программ создаются несколько небольших недорогих специализированных моделей машинного обучения. Каждая модель построена для обнаружения поведения конкретного экземпляра вредоносного ПО (например, Mirai, WannaCry) или отдельного семейства вредоносных программ (группы похожих вредоносных программ). экземпляры). Кроме того, каждая модель или детектор создается с использованием схожих функций, таких как одинаковые вычислительные затраты, или уникальных для конкретной среды исполнения.
Использование микро- и сфокусированных детекторов снижает затраты на переподготовку и развертывание в производстве . Это связано с тем, что детекторы для новых вредоносных программ можно обучать и добавлять без необходимости переобучать существующие детекторы. Более того, когда детектор вредоносных программ устаревает в результате эволюции вредоносных программ, устаревшие детекторы удаляются и заменяются новыми.
Используя эволюционные вычисления, мы могли бы описать решения детекторов вредоносных программ, используя набор правил IF-Then. Единственная необходимая информация - это входные функции, которые детектор вредоносных программ использует для принятия решения.
Правила IF-Then полезны для объяснения поведения, которое запускает конкретное решение, например вредоносное или доброкачественное, детектором вредоносных программ. Специалистам по кибербезопасности и вредоносному ПО удобно работать с правилами IF-Then. Эти правила помогут понять решение, принимаемое детекторами вредоносных программ, объяснить объем обнаружения и выявить потенциальное чрезмерное обобщение или переоборудование, которое может привести к ложным
положительным или ложноотрицательным результатам.
Обучение и обновление детекторов вредоносных программ - наиболее эффективное решение против вредоносных программ. Как я упоминал ранее, мы не можем создать идеальную систему обнаружения вредоносных программ. Я также считаю, что мы не можем создать идеальное вредоносное ПО. Для этого использование гибридной модели машинного обучения (когда для построения модели используются два или более разных алгоритма машинного обучения) будет эффективным против злонамеренного вредоносного ПО. Такой подход обеспечит глубокую защиту для детекторов вредоносных программ.

Заключение

«Люди беспокоятся, что компьютеры станут слишком умными и захватят мир, но настоящая проблема в том, что они слишком глупы и уже захватили мир». - Педро Домингос .

В заключение, моя статья была направлена на то, чтобы прояснить видение детекторов вредоносных программ машинного обучения. Потому что я считаю, что прозрачность - это первый ключ к укреплению доверия. Из этой статьи мы знаем, что в настоящее время моделям машинного обучения не хватает надежности. И мы знаем их способность обнаруживать скрытые связи для решения сложных проблем, таких как проблемы кибербезопасности. Безусловно, в этой области необходимы дальнейшие исследования. И, возможно, когда-нибудь мы сможем доверять решению, принятому ИИ в области безопасности. На данный момент я думаю, что предстоит проделать большую работу, прежде чем мы сможем ответить на этот вопрос.

Следуйте за мной, чтобы прочитать мои статьи об ИИ в безопасности, потому что это только начало. ✌ ✌ 👌

Приятного чтения, удачного обучения и удачного программирования. 👏