Последние разработки в технологии обнаружения спама, часть 1

1. Обнаружение спам-обзоров на вьетнамских сайтах электронной коммерции (arXiv)

Автор:Ко Ван Динь, Сон Т. Луу, Ань Гиа-Туан Нгуен

Вывод: отзывы покупателей играют важную роль при покупках в Интернете. Люди часто обращаются к отзывам или комментариям предыдущих клиентов, чтобы решить, покупать ли новый продукт. Улавливая такое поведение, некоторые люди создают неправду и незаконные обзоры, чтобы обмануть клиентов о поддельном качестве продуктов. Эти отзывы называются спам-отзывами, которые сбивают с толку потребителей на платформах онлайн-покупок и негативно влияют на их поведение при совершении покупок в Интернете. Мы предлагаем набор данных под названием ViSpamReviews, который имеет строгую процедуру аннотации для обнаружения спам-обзоров на платформах электронной коммерции. Наш набор данных состоит из двух задач: задачи бинарной классификации для определения того, является ли отзыв спамом, и задачи многоклассовой классификации для определения типа спама. PhoBERT показал самые высокие результаты по обоим заданиям, 88,93% и 72,17%, соответственно, по среднему макробаллу F1.

2. Моделирование поведения пользователей с помощью сетей взаимодействия для обнаружения спама (arXiv)

Автор: Прабхат Агарвал, Маниша Шривастава, Вишвакарма Сингх, Чарльз Розенберг.

Аннотация:Спам — это серьезная проблема, связанная с масштабируемыми в Интернете цифровыми платформами, которые упрощают создание и распространение пользовательского контента. Это ставит под угрозу целостность платформы, производительность таких сервисов, как рекомендации и поиск, и бизнес в целом. Спамеры прибегают к разнообразным оскорбительным действиям и уклонениям от рассылки, которые отличаются от тех, кто не занимается спамом. Сложное поведение пользователей может быть хорошо представлено гетерогенным графом, богатым атрибутами узлов и ребер. Научиться идентифицировать спамеров на таком графике для веб-платформы сложно из-за его структурной сложности и размера. В этой статье мы предлагаем SEINE (обнаружение спама с использованием Interaction NETworks), модель обнаружения спама на основе новой графовой структуры. Наш график одновременно фиксирует детали и поведение богатых пользователей и позволяет учиться на миллиардном графике. Наша модель учитывает соседство, а также типы и атрибуты границ, что позволяет ей захватывать широкий круг спамеров. SEINE, обученный на реальном наборе данных, состоящем из десятков миллионов узлов и миллиардов ребер, достигает высокой производительности — отзыва 80 % с частотой ложных срабатываний 1 %. SEINE достигает производительности, сравнимой с самыми современными методами, в общедоступном наборе данных, но при этом является прагматичным для использования в крупномасштабной производственной системе.

3. Обнаружение спама с помощью BERT(arXiv)

Автор: Таер Сахмуд, Dr. Мохаммад Микки

Аннотация:Электронная почта и SMS являются наиболее популярными инструментами в современных средствах связи, и по мере увеличения числа пользователей электронной почты и SMS увеличивается количество спама. Спам — это любое нежелательное, нежелательное цифровое сообщение, которое рассылается в больших количествах. Спамовые электронные письма и SMS-сообщения вызывают значительную трату ресурсов из-за ненужного переполнения сетевых ссылок. Хотя большинство спам-писем исходит от рекламодателей, стремящихся продвигать свои продукты, некоторые из них гораздо более злонамеренны по своим намерениям, например, фишинговые электронные письма, целью которых является обманом заставить жертв предоставить конфиденциальную информацию, такую как логины на веб-сайтах или информацию о кредитных картах. Этот тип киберпреступления известен как фишинг. Чтобы противодействовать спаму, предпринимается множество исследований и усилий для создания детекторов спама, которые могут отфильтровывать сообщения и электронные письма как спам или ветчину. В этом исследовании мы создаем детектор спама, используя предварительно обученную модель BERT, которая классифицирует электронные письма и сообщения, понимая их контекст, и мы обучили нашу модель детектора спама, используя несколько корпусов, таких как корпус коллекции SMS, корпус Enron, корпус SpamAssassin, корпус Ling-Spam. и корпус для сбора SMS-спама, эффективность нашего детектора спама составила 98,62%, 97,83%, 99,13% и 99,28% соответственно. Ключевые слова: Детектор спама, BERT, Машинное обучение, NLP, Transformer, Enron Corpus, SpamAssassin Corpus, Корпус обнаружения SMS-спама, Ling-Spam Corpus.

Последние разработки в технологии обнаружения спама, часть 1

Вопросы по теме