Последние разработки в технологии обнаружения спама, часть 2

1. Обнаружение спама в электронной почте с использованием гибридного метода глубокого обучения с иерархическим вниманием (arXiv)

Автор :Султан Заврак, Сейхмус Йылмаз

Аннотация . Электронная почта — один из наиболее широко используемых способов общения. Миллионы людей и компаний используют ее для ежедневного общения и обмена знаниями и информацией. Тем не менее, рост пользователей электронной почты привел к резкому увеличению количества спама в последние годы. Надлежащая обработка и управление электронной почтой для отдельных лиц и компаний становится все труднее. В этой статье предлагается новый метод обнаружения спама в электронной почте, основанный на сочетании сверточных нейронных сетей, закрытых рекуррентных блоков и механизмов внимания. Во время обучения системы сеть выборочно фокусируется на нужных частях текста письма. Использование слоев свертки для извлечения более значимых, абстрактных и обобщаемых признаков с помощью иерархического представления является основным вкладом этого исследования. Кроме того, этот вклад включает оценку перекрестных наборов данных, что позволяет получать более независимые результаты производительности из набора обучающих данных модели. Согласно результатам оценки перекрестных наборов данных, предлагаемый метод улучшает результаты существующих методов, основанных на внимании, за счет использования временных сверток, которые дают нам более гибкие размеры рецептивного поля. Результаты предлагаемого метода сравниваются с результатами современных моделей и показывают, что наш подход превосходит их.

2. Использование кодирования BERT для борьбы с атакой Mad-lib при обнаружении SMS-спама (arXiv)

Автор:Серхио Рохас-Галеано

Выдержка:Одна из уловок, используемых для обмана спам-фильтров, заключается в замене слов синонимами или похожими словами, которые делают сообщение нераспознаваемым алгоритмами обнаружения. В этой статье мы исследуем, может ли недавняя разработка языковых моделей, чувствительных к семантике и контексту слов, таких как BERT Google, быть полезной для преодоления этой состязательной атаки (называемой «Mad-lib» в соответствии с игрой замены слов). Используя набор данных из 5572 спам-сообщений SMS, мы сначала установили базовый уровень эффективности обнаружения, используя широко известные модели представления документов (BoW и TFIDF) и новую модель BERT в сочетании с различными алгоритмами классификации (Дерево решений, kNN, SVM, Logistic). Регрессия, наивный байесовский анализ, многослойный персептрон). Затем мы создали тезаурус словаря, содержащегося в этих сообщениях, и запустили эксперимент по атаке Mad-lib, в котором мы модифицировали каждое сообщение протянутого подмножества данных (не используемого в базовом эксперименте) с различной скоростью замены оригинальные слова с синонимами из тезауруса. Наконец, мы оценили эффективность обнаружения трех моделей представления (BoW, TFIDF и BERT) в сочетании с лучшим классификатором из базового эксперимента (SVM). Мы обнаружили, что классические модели достигли сбалансированной точности (BA) 94% в исходном наборе данных, тогда как модель BERT получила 96%. С другой стороны, эксперимент по атаке Mad-lib показал, что кодировкам BERT удается поддерживать аналогичную производительность BA на уровне 96% при средней скорости замены 1,82 слова на сообщение и 95% при замене 3,34 слова на сообщение. Напротив, производительность BA кодировщиков BoW и TFIDF упала на волю случая. Эти результаты намекают на потенциальное преимущество моделей BERT в борьбе с подобными изощренными атаками, в некоторой степени компенсируя неуместное использование семантических отношений в языке.

3. Обнаружение спама в Твиттере: систематический обзор(arXiv)

Автор: Сепидех Баззаз Абкенар, Мостафа Хаги Кашани, Мохаммад Акбари, Эбрахим Махдипур

Аннотация : В настоящее время, с ростом доступа к Интернету и мобильных устройств по всему миру, все больше людей используют социальные сети для совместной работы и получения информации в режиме реального времени. Twitter, микроблог, который становится важным источником общения и распространения новостей, привлек внимание спамеров, чтобы отвлечь пользователей. К настоящему времени исследователи внедрили различные методы защиты для обнаружения спама и борьбы со спамерами в Twitter. Чтобы решить эту проблему, в последние годы исследователи предложили множество новых методов, которые значительно повысили эффективность обнаружения спама. Таким образом, возникает мотивация проводить систематический обзор различных подходов к обнаружению спама в Твиттере. Этот обзор посвящен систематическому сравнению существующих методов исследования по обнаружению спама в Твиттере. Анализ обзора литературы показывает, что большинство существующих методов основаны на алгоритмах, основанных на машинном обучении. Среди этих алгоритмов машинного обучения основные различия связаны с различными методами выбора признаков. Следовательно, мы предлагаем таксономию, основанную на различных методах выбора признаков и анализе, а именно на контент-анализе, пользовательском анализе, анализе твитов, сетевом анализе и гибридном анализе. Затем мы представляем численный анализ и сравнительные исследования существующих подходов, предлагая открытые задачи, которые помогают исследователям разрабатывать решения по этой теме.

Последние разработки в технологии обнаружения спама, часть 2

Вопросы по теме