В этой статье я предоставлю обширный анализ мошеннических транзакций и того, как мы можем обнаружить эти мошеннические транзакции, не мешая законным транзакциям.

Прежде всего, давайте разберемся, как мошеннические транзакции мешают бизнесу. Давайте возьмем гипотетический пример, чтобы понять это, предположим, что мошенник крадет номер вашей кредитной карты путем взлома данных. С картой он покупает дорогую вещь. Когда вы видите неизвестную транзакцию с высокой стоимостью, вероятно, вы поднимаете спор (т.е. отзыв платежа) по этой транзакции с банком.

Если банк держателя карты решит, что транзакция на самом деле была мошеннической, продавец несет ответственность за расходы, связанные с мошенничеством.

Стоимость мошенничества = стоимость товара + плата за спор.

Если продавец стал жертвой мошеннической транзакции, он в конечном итоге теряет много денег. По данным The Nilson Report, ведущего глобального издания по карточным и мобильным платежам, мировые убытки от мошенничества с кредитными картами достигли 27,85 млрд долларов в 2018 году и, по прогнозам, вырастут до 35,67 млрд долларов через пять лет и 40,63 млрд долларов через 10 лет. Итак, это огромный рынок!

Наша цель — оптимизировать доход нашего продавца по сравнению с тем, что он имел бы без нашего машинного обучения.

Проблемы при преобразовании в проблему машинного обучения.

  1. Эффективная маркировка данных.
  2. Дисбаланс классов при обучении модели.
  3. Нам нужно придумать какой-нибудь метод оценки производительности, насколько хорошо работает наша модель.

Эффективная маркировка данных :

а) Наша модель представляет собой бинарный классификатор, поэтому она смотрит на транзакцию и сообщает нам о мошенничестве или мошенничестве.

б) Мы используем ярлыки, которые тесно связаны с реальными потерями от мошенничества, а не с восприятием мошенничества.

Обработка дисбаланса классов

Прежде чем я углублюсь в классовый дисбаланс. У меня есть пара примеров, иллюстрирующих связь между Precision, Recall и FPR.

Точность определяется как количество транзакций, которые модель фактически предсказала как «Мошенничество». Сколько из этих мошеннических транзакций являются именно мошенничеством.

Отзыв формулируется следующим образом: сколько из общего числа фактических мошеннических транзакций правильно предсказано как мошенничество.

FPR формулируется как количество немошеннических транзакций, ошибочно идентифицированных как мошенничество.

Если мы выберем оценку блока ≥ 90, то

Точность = 1/1, отзыв = 1/2 и FPR = 0/4.

Теперь, если мы изменим оценку блока на ≥ 30, тогда

Теперь точность = 2/3, отзыв = 2/2 и FPR = 1/4. Просто определив пороговое значение, мы изменим матрицу оценки.

Очень немногие транзакции являются мошенническими (менее 1%). В общем, мы хотим максимизировать отзыв при ограничении FPR.

Общий способ справиться с дисбалансом классов заключается в использовании всех мошеннических транзакций, но при необходимости подвыборки немошеннических транзакций для достижения надлежащего целевого уровня.

Существуют различные способы обработки несбалансированного набора данных класса, такие как метод повторной выборки, случайная недостаточная выборка, случайная избыточная выборка и метод SMOTE.

Показатель оценки производства:

Таким образом, обучение модели на сбалансированном наборе данных оптимизирует производительность при проверке данных. Однако наша цель — оптимизировать производительность набора данных о дисбалансе.

Для показателей оценки модели в производственной области нам нужно получить высокий балл F1, вспомнить значение и установить контроль над уровнем ложноположительных и ложноотрицательных результатов, чтобы получить оптимальную модель классификации. Это все о сценарии использования для обнаружения мошенничества с кредитными картами.

Мы подошли к концу этой статьи! Так что следите за обновлениями и удачного обучения.