Время спасти вас от спама

Спам влияет на нашу жизнь во всем Интернете. Иногда вы даже не знаете, что перед вами спам. Итак, что такое спам на самом деле? Это использование систем электронного обмена сообщениями для рассылки невостребованных сообщений, особенно рекламного характера, а также повторная рассылка сообщений на одном и том же сайте.

Никто не любит спам, а рынок программного обеспечения для защиты от спама огромен, исчисляется миллиардами и, как ожидается, будет расти в геометрической прогрессии. Спам — это не что-то черное или белое, во многих системах грань проводится по-разному. Например, сообщение о каких-то совершенно новых характеристиках футбольного мяча может быть спамом для личных сообщений, а вот в группе футбола в Facebook может быть очень уместной информацией. Это одна из причин, по которой программное обеспечение для защиты от спама следует настраивать под конкретные нужды.

Спам в цифрах

На него приходится 14,5 млрд сообщений по всему миру в день (в среднем 2 спам-сообщения на человека в день), это около 45% всех электронных писем. Соединенные Штаты являются генератором спама номер один, а Корея занимает второе место по количеству нежелательной почты. Согласно исследованию Radicati Research Group Inc., исследовательской фирмы, базирующейся в Пало-Альто, штат Калифорния, спам ежегодно обходится компаниям в 20,5 миллиардов долларов из-за снижения производительности, а также из-за технических расходов. Но спам влияет не только на наши почтовые ящики. В настоящее время спам становится все более популярным в социальных сетях. Типичный социальный спам включает обман пользователей, заставляющих их лайкать/расшаривать контент (лайк-джекинг), или рекламу вредоносного ПО со стороннего сайта. Самая сложная проблема с социальным спамом заключается в том, что сообщения обычно исходят от реальных друзей пользователя и могут быть персонализированы. Facebook утверждает, что менее 4% всех сообщений являются спамом. Twitter отмечает, что 1,5% всех твитов являются спамом. .

До сих пор нет хорошей универсальной и совершенной системы для обнаружения спама и экономии вашего времени на борьбу с ним. Поэтому мы решили принять этот вызов.

Спам-продукт

Программное обеспечение KindGeek для обнаружения спама ориентировано на устранение спама в продуктах наших клиентов, а именно в социальных сетях. Для первого этапа разработки продукта KindGeeks выбрали Наивный байесовский классификатор, который доказал свою эффективность. Классификатор — это инструмент Машинного обучения, основанный на статистике. Простыми словами, сообщение преобразуется в набор слов, и на основе статистики этих слов, упомянутых в предыдущих сообщениях, которые уже были классифицированы, рассчитывается вероятность того, что сообщение является спамом.

Известно, что наряду с простотой Наивный Байес превосходит даже очень сложные методы классификации. Однако этот метод хорошо работает только в том случае, если он уже обучен на хорошем наборе данных, а также когда сообщение не содержит орфографических ошибок. Комментарии Youtube служили хорошим набором данных, а ElasticSearch — для орфографических ошибок.

Чтобы заполнить некоторые пробелы на этом этапе, мы также используем НЛП, известную как обработка естественного языка. Это область, связанная с искусственным интеллектом и компьютерной лингвистикой, которая касается взаимодействия между компьютерами и человеческими языками.

Будущее

Мы верим, что будущее антиспама в социальных сетях за борьбой не со спамом, а с таргетингом на спамеров. Пользователи взаимодействуют друг с другом, пользователи пишут сообщения, которые связаны друг с другом, у пользователей есть так много вещей, которые могут помочь определить, являются ли они спамерами или нет. Кроме того, пользователей раздражает сообщение, которое интерпретируется как спам, и эта неправомерность приводит к ухудшению качества социальной сети, а также удовлетворенности ее клиентов.

Один из методов обнаружения спамеров — Graph-Based Classifier. Классификатор учитывает не только отдельные действия, но и отслеживает поведение пользователей. Классификатор строит огромный график взаимосвязей и личных свойств пользователей. Система обнаружения спама также будет включать проверку используемых URL-адресов и номеров.

Предыдущие статьи
Датчик «AirQ Во Львовском детском саду установлен первый умный датчик»

Лента Twitter @chivalricblog

Ознакомьтесь с новым постом в моем блоге #natureshot http://bit.ly/blog

1 день назад

Время спасти вас от спама

Вопросы по теме