Команда специалистов по обработке и анализу данных PayPal использует большие данные для принятия бизнес-решений и предоставления решений на основе данных, чтобы лучше удовлетворять финансовые потребности наших клиентов и стимулировать рост бизнеса. В этой статье мы представляем платформу, основанную на глубоком обучении, которую можно использовать для оптимизации действий для достижения конкретных целей.

Введение

Многие важные бизнес-задачи необходимо перевести в соответствующие задачи машинного обучения. Например, мы должны уметь распознавать мошеннические операции с кредитными картами, чтобы предотвратить убытки как для наших продавцов, так и для потребителей. Обнаружение мошенничества с кредитными картами часто переводится в задачу классификации в машинном обучении.

Еще одна важная проблема — рекомендовать правильные финансовые продукты нужным клиентам. Один из способов получить рекомендацию продукта — вычислить показатель склонности (т. е. вероятность принятия продукта пользователем). Эффективные рекомендации по продукту и стратегии продвижения часто строятся на основе оценок склонности продукта. Моделирование склонности, определяющее лучшие пары «продукт-клиент», часто превращается в задачу классификации.

Классификация

Цель классификации состоит в том, чтобы отнести точки данных к одному из нескольких сегментов. Для задачи бинарной классификации есть два сегмента, часто обозначаемые 0 или 1 (отрицательное или положительное). Обученная модель или классификатор генерирует прогнозируемую оценку, представляющую вероятность того, что она равна 1 (положительный случай). Например, при обнаружении мошенничества с кредитными картами каждая транзакция будет классифицироваться как 1 (мошенническая) или 0 (не мошенническая). Классификатор будет генерировать оценку для каждой транзакции, а оценка, близкая к 1, предполагает более высокий риск мошеннической транзакции.

Фаза обучения модели часто руководствуется определенной функцией потерь, называемой бинарной кросс-энтропией, так что оптимизированный классификатор дает минимальную ошибку, определяемую как

где 𝑦 — наблюдение или метка, 0 или 1, 𝑝 — предсказание модели. Интуитивно эта ошибка сводится к минимуму, когда классификатор генерирует оценку, близкую к 1, если основная истина равна 1, и оценку ближе к 0, если основная истина равна 0.

Одно наблюдение, глядя на функцию потерь, заключается в том, что классификатор будет выполнять ту же работу при разделении двух случаев, даже если мы поменяем местами положительные и отрицательные случаи. Тем не менее, классические модели классификации часто не подходят для решения всех бизнес-задач. Это связано с тем, что функция потерь для классических моделей машинного обучения является универсальной, а не специфичной для предметной области.

Оптимизация действий

Во многих проблемах, связанных с предметной областью, заинтересованные стороны бизнеса или пользователи моделей должны будут разработать действенные стратегии для максимизации различных целей (например, бизнес-показателей или ключевых показателей эффективности). Это побуждает нас создавать специальные функции потерь для удовлетворения различных потребностей в конкретной предметной области.

Возьмем в качестве примера модель предрасположенности к продукту, которая используется для рекомендации финансовых продуктов PayPal клиентам-торговцам. Из-за нехватки ресурсов только с определенной частью клиентов-продавцов можно связаться для получения рекомендаций по продуктам. Торговые представители будут полагаться на результаты, полученные с помощью обученной модели склонности, рассматривая клиентов с наивысшими показателями склонности для оптимизации целей, таких как продажи, с ограниченным охватом.

Классическая модель классификации, несомненно, может выполнить свою работу — хорошо обученный классификатор с бинарной кросс-энтропийной потерей по умолчанию оптимизирован для отделения клиентов с высокой склонностью от клиентов с низкой склонностью. Одним очевидным ограничением этого подхода является то, что классификатор функции убытков по умолчанию не может учитывать потенциальный размер сделки, что является важным фактором для продаж. Включив настраиваемую функцию потерь, которая больше соответствует бизнес-цели, мы можем получить еще лучшее бизнес-решение. Одна из таких настраиваемых функций потерь:

где 𝑟 представляет продажи, 𝑐 — затраты, связанные с охватом продукта. 𝑝 — это выходной слой нейронной сети, и это число от 0 до 1, где числа, близкие к 1, предполагают более высокий приоритет для охвата.

Вот один из способов интерпретировать эту целевую функцию — с точки зрения торгового представителя, когда он решает, стоит ли обращаться (более высокий 𝑝) к данному продавцу за рекомендацией определенного продукта. Если торговый представитель решит обратиться к вам, будут связанные с этим расходы (𝑐), а также потенциальные продажи (𝑟). Если торговые представители решат не заключать сделку, по крайней мере, на данный момент, тогда не будет никаких связанных с этим затрат или каких-либо продаж. Однако, даже если они решат протянуть руку помощи, результатом может быть либо выигрыш сделки, либо ее проигрыш (𝑟 = 0). Таким образом, приведенная выше настраиваемая функция в некоторой степени отражает ожидаемую отдачу от обращения к продавцу.

В отличие от бинарной кросс-энтропийной потери по умолчанию, эта настраиваемая функция потерь естественным образом наказывает ложноотрицательные значения с весом, пропорциональным размеру сделки, так что классификатор учится избегать ложноотрицательных результатов (пропуска потенциальной сделки), особенно для тех, у кого есть потенциально высокие продажи. В то же время он наказывает за ложные срабатывания, поскольку вес пропорционален связанным с этим затратам.

Чтобы изучить, как включение этой настраиваемой функции потерь повлияет на бизнес, мы сравнили модель глубокого обучения с прямой связью с этой настраиваемой функцией потерь с другой моделью глубокого обучения с прямой связью с двоичной кросс-энтропией по умолчанию, обученной на тех же базовых данных обучения. Мы выбрали здесь модель глубокого обучения из-за того, что их очень легко обучить с помощью пользовательских функций потерь, в отличие от других семейств моделей, где функция потерь неразрывно связана с процессом обучения модели. Две модели оценивались на одном и том же тестовом наборе — мы увидели примерно 15-процентное снижение коэффициента улова (т. е. коэффициента конверсии), но примерно 40-процентное увеличение показателя продаж, определяемого заинтересованными сторонами. Это связано с тем, что две модели обучаются для оптимизации разных целей: модель с бинарной кросс-энтропией по умолчанию обучается для минимизации ошибки прогноза, следовательно, показывает лучшую производительность с точки зрения коэффициента улова; в то время как модель с настраиваемой функцией потерь обучена максимизировать продажи (фактическая цель для заинтересованных сторон), следовательно, дает лучшую производительность по этому показателю.

Вывод

В этой статье мы представили подход к глубокому обучению, который можно использовать для оптимизации действий для решения конкретных проблем. Мы проиллюстрировали наш подход на примере моделирования предрасположенности к продукту и объяснили, почему модели, обученные с использованием настраиваемой функции потерь, оказались лучше, чем модели, обученные с использованием универсальной бинарной кросс-энтропийной потери. Этот подход также может быть применен к проблемам обнаружения мошенничества с кредитными картами при принятии решения о том, следует ли отклонить транзакцию из-за мошенничества или нет. В этом случае идеальная настроенная функция потерь должна наказывать ложные срабатывания с определенным весом, потому что отклонение законных транзакций приводит к плохому взаимодействию с пользователем.

Вообще говоря, точные результаты прогнозирования очень важны для принятия бизнес-решений; однако всегда существует разрыв между прогнозами и действенной стратегией, и именно поэтому важно тщательно сформулировать основную проблему ИИ/МО, максимально помня о конечных бизнес-показателях.

Пожалуйста, подпишитесь на наш блог, если вы хотите узнать больше.