Фоновая проблема

По крайней мере 97% американцев используют текстовые сообщения по мобильным телефонам каждый день. В 2016 году, согласно исследованию, проведенному Portio, через мобильные телефоны было отправлено 8,3 триллиона сообщений. Растущий поток больших данных показывает, что обмен сообщениями составляет 23 миллиарда в день и 16 миллионов сообщений в минуту. К концу 2012 года во всем мире насчитывается около 6,4 миллиарда абонентов мобильной связи. По данным Portio Research, с 2014 по 2017 год будет среднегодовой темп роста абонентской базы мобильной связи на 4,8%. К концу 2017 года количество абонентов мобильной связи будет расти. достигла 7,4 млрд абонентов мобильной связи. Распространение интеллектуальных устройств на базе экспоненциальных вычислений продемонстрировало значительный рост на мировом рынке систем на кристалле для смартфонов, лидером которого являются Qualcomm, Apple, MediaTrek, Samsung, HiSilicon, Spreadtrum и огромное количество других производителей чипов для смартфонов на рынке. . Использование в чипах технологии искусственного интеллекта прокладывает путь к 5G для повышения производительности и обработки сигналов. Несмотря на многофункциональность и расширенные возможности смартфонов, простой обмен текстовыми сообщениями продолжал быстро расти на мировых рынках. Экспоненциальный рост вычислительной мощности привел к генерации таких массивных больших данных по текстовым сообщениям. График развития индустрии мобильных телефонов с 1983 года (когда был выпущен первый мобильный телефон) по 2002 год (первый мобильный телефон с сенсорным экраном) показывает значительное увеличение вычислительной мощности и архитектуры SoC (System-on-Chip) для такого цунами больших данных за SMS-сообщения. Первая услуга SMS-связи была запущена в 1992 году. Услуги мобильной связи 3G были запущены в 2002 году. В 2010 году были запущены сети 4G. Скорость доставки привела к увеличению коммуникаций с помощью SMS-сообщений для предприятий и частных лиц, чтобы управлять значительной частью своей жизни. Только в 2012 году отрасль мобильных услуг обмена сообщениями принесла доход в размере 212 миллиардов долларов.

По данным Portio Research, трафик SMS подскочил до 100 миллиардов сообщений с 0,5 миллиарда сообщений в период с 1996 по 1999 год. К концу 2003 года, за следующие четыре года, трафик SMS увеличился в четыре раза до 450 миллиардов сообщений. В 2005 году объем SMS-трафика превысил отметку в триллион сообщений только за два года с 2003 по 2005 год. К 2009 году в мире было зарегистрировано пять триллионов сообщений. В 2015 году объем трафика достиг 8,3 трлн сообщений. Текстовый SMS-трафик пошел семимильными шагами благодаря обмену сообщениями между приложениями и SMS-сообщениями между приложениями с банковским сектором, мобильным здравоохранением и мобильными платежами. Это дало возможность обильному СПАМу от многих телемаркетеров, отправляющих текстовые сообщения SMS. В настоящее время многие кадровые агентства отправляют SMS с вакансиями по подписке, а иногда и без подписки. Я получаю тяжелые смс-сообщения от кадровых агентств без подписки. Это координировалось некоторыми людьми, взломавшими мою учетную запись в Facebook и Twitter. Эти сообщения все еще при мне.

Согласно двум публикациям Forrester Research, Forrester Research Mobile Media Application Spending Forecast 2012–2017 EU-7 и Forrester Research Mobile Media Application Spending Forecast 2012–2017 отправлено шесть миллиардов SMS-сообщений только в США каждый день. Большинство текстов, то есть 80% текстов, созданы взрослыми американцами. Рост спама можно объяснить показателем открываемости, который составляет 45% по сравнению с 20% успешностью открываемости по электронной почте. Скорость ответа выше для текстовых сообщений - 45% и 6% для электронных писем. Американцы обмениваются текстовыми сообщениями вдвое чаще, чем телефонными звонками.

Наивный байесовский классификатор

Учитывая экспоненциальный рост больших объемов данных и SMS-трафика, наблюдается значительный рост SMS-спама как средства для совершения мошенничества и рекламы своих вакансий. Фильтрация спама может быть применена с помощью классификатора Наивного Байеса, классифицируя SMS как СПАМ, так и радиолюбитель. По сути, наивный байесовский классификатор может работать как программное обеспечение для защиты от спама с более высокими показателями точности. В этой реализации Python он показал уровень точности обучения 99,38% и уровень точности тестирования 98,15%. Набор данных Kaggle использовался для обнаружения СПАМА с помощью классификатора Naïve Bayes. Файл набора данных Kaggle имеет два столбца с метками v1 и v2. V1 содержит метку либо спам, либо текстовые данные любительского, а столбец v2 содержит фактическое SMS-сообщение. Приблизительно в США пользователи получают 1,1 миллиарда SMS-спама, а китайские мобильные пользователи получают 8,29 миллиарда SMS-спама каждую неделю от различных рекламных носителей и мошеннических корпораций. Для фильтрации проблемы SMS-спама могут применяться многие классификаторы, такие как индукция правил, нейронные сети, деревья решений, наивный байесовский алгоритм, k-ближайшие соседи и вспомогательные векторные машины. Следует учитывать тот факт, что классификация электронной почты полностью отличается от классификации текста SMS, поскольку длина текста ограничена 160 символами. Следовательно, функция должна быть адекватной, чтобы различать спам и любительскую почту. Исторически сложилось так, что алгоритм классификации Наивного Байеса оказался очень эффективным для выявления СПАМА.

Векторизатор TF-IDF против распространенных стратегий векторизатора

Как и в случае с другими проблемами, процесс включает в себя сначала загрузку набора данных путем чтения на Python с кодировкой ISO-8859-1 и применения алгоритма машинного обучения Naïve Bayes путем обучения и тестирования этапов построения модели машинного обучения. Все нерелевантные имена столбцов в файле необходимо отбросить. Извлечение признаков может быть выполнено либо векторизатором счетчика, либо векторизатором TF-IDF. Countvectorizer применяет токенизацию и подсчет вхождений через один класс. Применяя общий векторизатор, слова можно токенизировать с помощью обработки естественного языка и подсчитывать количество слов в минималистичном корпусе текстовых файлов или документов. В качестве альтернативы может применяться векторизатор TF-IDF, а также в случае большого текстового корпуса; в английском языке будут повторяться такие слова, как the, a, или is. TFIDFTransformer и TFIDVectorizer в scikit learn будут выполнять подсчет вхождений слов.

Визуализация данных

Создание облака слов с помощью библиотеки wordcloud показывает наиболее часто повторяющиеся слова СПАМА, такие как звонок, бесплатно, сейчас, Великобритания, мелодия звонка, обслуживание клиентов, чат, стационарный телефон, текст и т. Д. С сочетанием синего и зеленого цветов. Wordcloud сгенерирован из прилагаемой ниже программы:

Визуализация данных для ветчины показывает следующее облако слов из программы.

Результаты

Я поделился программой на Github на GPSingularity.

использованная литература

Арифин Д. Д., Шауфия и Биджаксана М. А. (2017, январь 2017 г.). Повышение эффективности обнаружения спама на мобильных телефонах с помощью службы коротких сообщений (SMS) с помощью FP-growth и наивного байесовского классификатора. IEEE Explore Wireless and Mobile (APWiMob), Конференция IEEE в Азиатско-Тихоокеанском регионе 2016 г. http://dx.doi.org/10.1109/APWiMob.2016.7811442

О’Грейди, М. (2012). В США по-прежнему активно используются SMS: ежедневно отправляется 6 миллиардов SMS-сообщений. Получено 13 мая 2015 г. с сайта https://go.forrester.com/blogs/12-06-19-sms_usage_remains_strong_in_the_us_6_billion_sms_messages_are_sent_each_day/.

Portio Research (2017). Мировые рынки SMS, 2014–2017 гг. Получено 13 мая 2018 г. с сайта http://www.xconnect.net/wp-content/uploads/worldwide-sms-markets-portio-strikeiron.pdf.

Смит, А. (2015). Использование смартфонов в США в 2015 г. Получено 13 мая 2018 г. с сайта http://www.pewinternet.org/2015/04/01/us-smartphone-use-in-2015/.

Шривастава, С. (2017). Мировой рынок SoC для смартфонов превысил 8 миллиардов долларов в третьем квартале 2017 года, что стало рекордом за третий квартал. Получено 13 мая 2018 г. с сайта https://www.counterpointresearch.com/global-smartphone-soc-market-crossed-us8-billion-q3-2017-third-quarter-record/.