Единая технология фильтрации электронной почты

Мое электронное письмо сотрудникам нашего журнала, содержащее отрывки из этой колонки, некоторое время назад перестало доставляться. Не было ни ответной почты, ни уведомлений об отсутствии на работе, просто — ну, просто ничего. Потребовалось некоторое время, чтобы понять, что наша линия связи была прервана, и нам пришлось вернуться к старой доброй технике рукопожатия телефонных звонков, чтобы убедиться, что они прошли. Немного покопавшись, выяснилось, что виноват я, вернее, мое изобилие. Считая электронную почту менее формальным способом общения, чем обычная почта, я имел привычку подписывать фразой «Спасибо!!!» — три восклицательных знака и все. К сожалению, для нежелательной электронной почты или фильтра «спама» это закрытие очень похоже на «Виагру!!!». или «Разбогатей!!!» таким образом, моя электронная почта была быстро отправлена ​​в нижние области эфирного пространства.

Фильтрация нежелательных сигналов или шума долгое время была важной темой при сборе данных и разработке приборов. Шум может маскировать сигнал, затрудняя его обнаружение, а фильтрация шума может ослаблять или полностью удалять сигнал. Коммерческие провайдеры электронной почты и компании-разработчики программного обеспечения разработали или внедрили разные методы фильтрации спама, каждый из которых имеет свои сильные и слабые стороны. Доктор Уильям С. Йеразунис, старший научный сотрудник Mitsubishi Electronic Research Laboratory (MERL) в Кембридже, Массачусетс, недавно рассказал о различных методах фильтрации на конференции MIT Spam в 2005 году. Вместе со своими коллегами из Калифорнийского университета Риверсайд, Свободного университета Берлина и Эмбрател, Бразилия, он классифицирует существующие методы на три основных типа и предполагает, что они являются просто частными случаями общего, унифицированного подхода к фильтрации электронной почты.

Один из методов фильтрации электронной почты состоит в том, чтобы просто заблокировать всю электронную почту с адреса, содержащегося в черном списке. После того, как сервер определен как источник спама, его адрес добавляется в локальный черный список или в более крупный список, поддерживаемый третьей стороной. Этот метод фильтрации на 100 процентов эффективен против спама с сайта; однако в логическом финале все серверы заблокированы, и почта не доставляется. Вторым методом фильтрации является эвристическая фильтрация, при которой человек проверяет электронную почту со спамом и не спамом и определяет «вероятные признаки», которые используются для запуска или пометки сообщения как спама; очень похоже на мое «Если текст содержит (!!!), то пометить как спам». Третий метод — статистическая фильтрация. Подобно эвристической фильтрации, человек классифицирует группу сообщений как спам или не спам, но эмпирические правила генерируются алгоритмом оптимизации, основанным на статистическом анализе обучающей выборки, таком как байесовская классификация.

Доктор Еразунис предлагает, чтобы эти методы фильтрации следовали предложенному конвейеру фильтрации из шести шагов и просто использовали разные версии общих компонентов:

Первоначальная трансформация. Этот первый шаг может включать принудительное преобразование экзотических символов в базовый набор символов, распаковку кодировок MIME в общее представление и деобфускацию HTML путем удаления бессмысленных тегов, невидимых для человека-читателя, но могут быть вставлены, чтобы разбить «спамовые» ключевые слова.

Токенизация. Регулярное выражение (регулярное выражение) используется для сегментации сообщения на текстовые строки, которые преобразуются в уникальные значения с помощью метода поиска.

Извлечение функций. Токены группируются в осмысленные конечные последовательности (кортежи) на основе содержащихся в них слов или порядка, в котором слова появляются в сообщении.

Взвешивание признаков: этот шаг основан на предварительном обучении фильтра для ранжирования важности кортежа, найденного в сообщении. Вес можно определить по тому, как часто кортеж встречается в спам-сообщениях, насколько кортеж похож на известный спам-функция, а также по размеру обучающей выборки.

Комбинация весов. Веса найденных функций затем объединяются для определения общей вероятности того, что сообщение является спамом. Это может быть простое линейное сложение значений весов или сложный нелинейный метод, такой как тот, который учитывает относительные силы отсортированных весов, байесовский объединитель, который учитывает вероятность того, что сообщение является спамом, до и после рассмотрения веса или метод хи-квадрат, который сравнивает наблюдаемое количество спамерских кортежей с ожидаемым или приемлемым количеством мошеннических кортежей.

Окончательное пороговое значение. После объединения весов на основе окончательного значения принимается окончательное решение "спам/не спам". Для статистических методов окончательный порог часто равен 0,5 (50 процентов); однако фактическое значение может быть скорректировано разработчиком фильтра для достижения оптимальных результатов.

В дополнение к унификации описания многих текущих спам-фильтров, предлагаемый конвейер фильтрации очень напоминает дизайн нейронной сети МакКаллоха-Питса, которая соединяет несколько входных данных (значения кортежа) через взвешенные соединения со слоями искусственных нейронов, значения которых обрабатываются порогом для вычисления « да нет." Возможно, недавние разработки в области искусственных нейронных сетей могут добавить немного больше интеллекта в процесс фильтрации спама и позволят мне сохранить изобилие!!!

Первоначально этот материал был опубликован как редакционная статья в журнале Scientific Computing and Instrumentation 22:10, сентябрь 2005 г., стр. 14.

Уильям Л. Уивер — адъюнкт-профессор кафедры интегрированных наук, бизнеса и технологий Университета Ла Саль в Филадельфии, штат Пенсильвания, США. Он имеет B.S. Получил двойную степень по химии и физике и получил докторскую степень. в аналитической химии с опытом в сверхбыстрой лазерной спектроскопии. Он преподает, пишет и рассказывает о применении системного мышления для разработки новых продуктов и инноваций.