Хосе Мэтью, Мегана Неги, Рутвик Виджали и Джайрадж Сатьянараяна представят свой доклад под названием DeFraudNet: сквозная слабая система надзора для обнаружения мошенничества в онлайн-доставке еды по направлению Прикладная наука о данных на конференции ECML PKDD'21, посвященной состоится 13–17 сентября. Ниже приводится аннотация статьи. Версия статьи в блоге появляется здесь.

Обнаружение оскорбительных и мошеннических заявлений является одной из ключевых проблем в онлайн-доставке еды. Это еще больше усугубляется тем фактом, что в отличие от электронной коммерции нецелесообразно проводить обратную логистику продуктов питания. Это делает и без того сложную проблему сбора этикеток для мошенничества еще более сложной, потому что мы не можем подтвердить, было ли заявление законным, проверив предмет (ы). Использование ручных усилий для анализа транзакций для создания меток часто является дорогостоящим и требует много времени. С другой стороны, как правило, существует множество «шумной» информации о том, что представляет собой мошенничество, в форме взаимодействия со службой поддержки клиентов, слабых и жестких правил, полученных на основе анализа данных, бизнес-интуиции и понимания предметной области.

В этой статье мы представляем новую сквозную структуру для обнаружения мошеннических транзакций, основанную на крупномасштабном создании меток с использованием слабого контроля. Мы напрямую используем Snorkel Стэнфордской лаборатории искусственного интеллекта (SAIL) и методы на основе дерева для ручного и автоматического обнаружения функций маркировки для создания слабых меток. Затем мы используем метод, основанный на ошибках реконструкции автоматического кодировщика, чтобы уменьшить шум меток. Последним шагом является модель дискриминатора, которая представляет собой ансамбль MLP и LSTM. В дополнение к поперечным и продольным характеристикам истории клиентов и транзакций мы также собираем вложения клиентов из сети свертки графов (GCN) на графике отношений клиент-клиент, чтобы зафиксировать сговор. Окончательная оценка является пороговой и используется при принятии решения.

Это решение в настоящее время развернуто для обслуживания в режиме реального времени и привело к улучшению отзыва на 16 процентных пунктов при заданном уровне точности. Эти результаты противоречат базовой модели MLP, основанной на данных, размеченных вручную, и имеют большое значение в нашем масштабе. Наш подход можно легко масштабировать для дополнительных сценариев мошенничества или для случаев, когда трудно получить «сильные» ярлыки, но преобладают слабые ярлыки.