Общие проблемы сравнительного анализа качества ETA и способы их преодоления

Возможность предоставлять точные ETA (расчетное время прибытия) является важным компонентом пользовательского опыта в таких отраслях, как заказ такси, выездное обслуживание, доставка еды и логистика. Расчет ETA с использованием традиционных методов (планирование маршрута + информация о трафике) и машинного обучения очень сложен; мы не будем освещать это сегодня. Вместо этого мы обсудим одну из основ хорошего ETA — количественное измерение качества ETA.

Этот блог изначально был опубликован ЗДЕСЬ

Поскольку это традиционная проблема оценки, уже есть некоторые хорошо известные метрики, предназначенные для измерения точности ETA. Когда речь идет, в частности, о транспорте, необходимо учитывать множество факторов. В этой статье мы начнем с изучения традиционных метрик, а затем поговорим о том, что мы узнали о бенчмаркинге ETA на NextBillion.ai.

Традиционные статистические показатели

Давайте рассмотрим некоторые традиционные метрики оценки, которые широко используются для измерения ETA.

MAPE: средняя абсолютная ошибка в процентах

где At — фактическое значение, а Et — расчетное значение. 10% MAPE означает, что если фактическое время прибытия (ATA) составляет 10 минут, исходное ETA находилось в диапазоне 9–11 минут.

Плюсы и минусы МАПЕ

Плюсы. MAPE — это нормализованное число, которое можно сравнить для различных типов поездок и регионов. Вы можете напрямую сравнить свои показатели MAPE в Париже и в Лондоне. Это также довольно простая концепция; вы можете легко понять значение 10% MAPE.
Минусы: MAPE слишком чувствителен для коротких поездок. Представьте себе очень быструю поездку, которая займет всего две минуты. ETA для этой поездки может легко составлять от одной до трех минут, но при этом MAPE остается равным 50%. Воздействие этого 50% MAPE эквивалентно поездке с ожидаемым временем прибытия в два часа, которая на самом деле занимает три часа.

Полезным советом по использованию MAPE является изменение формулы следующим образом:

Мы изменили знаменатель с фактического значения At на оценочное значение Et. Это упрощает работу с точки зрения пользователя, так как пользователи обычно сначала видят расчетное время прибытия, и только когда поездка наконец заканчивается, они сравнивают фактическое время, затраченное на первоначальную оценку. Модифицированный MAPE, равный 10 %, означает, что если вы начнете с ETA, равного 10 минутам, то ATA будет в пределах 9–11 минут.

RMSE: среднеквадратическая ошибка

Плюсы и минусы RMSE

Плюсы. RMSE согласован по размерам, что упрощает его понимание. По сути, он взвешивает поездки на основе продолжительности, а не только процента ошибок, что позволяет обойти проблемы, с которыми MAPE сталкивается при коротких поездках.
Минусы. Подобно тому, как MAPE чувствителен к коротким поездкам, RMSE чувствителен к выбросам с точки зрения продолжительности поездки; экстремальные выбросы могут привести к плохому значению. Поскольку RMSE коррелирует с продолжительностью поездок, сравнивать разные регионы между собой сложно. Необходимо применить нормализацию.

И MAPE, и RMSE — это математические показатели, которые отлично подходят для сложных вычислений и могут использоваться в качестве целевых функций в ваших алгоритмах машинного обучения. Но могут ли они измерить, как пользователи относятся к ETA? Вероятно, можно с уверенностью сказать «нет». Никто не любит отложенные поездки, но люди гораздо терпимее относятся к ранним прибытиям. Кроме того, одна и та же погрешность может иметь разные последствия в разных сценариях. Для короткой 10-минутной поездки 20-процентная погрешность составляет всего две минуты — некоторые люди могут этого даже не заметить. Но в 10-часовом путешествии трудно не заметить двухчасовую задержку, и это может быть невыносимо. Очевидно, что эти показатели не могут отразить всю картину. Итак, давайте попробуем включить пользовательский опыт в наши измерения ETA.

Создайте свои собственные синтетические метрики для опыта ETA

ETA могут означать разные вещи для разных пользователей в разных сценариях. Надлежащее исследование пользователей может сказать вам, какой будет разумный порог, прежде чем ваш пользователь заметит, что ETA пошло не так. На основе исследования мы можем построить показатель «Хорошая оценка%», как показано ниже:

Мы можем определить хорошую оценку следующим образом:

Для поездок продолжительностью менее 24 часов хорошей оценкой считается погрешность в диапазоне ±2 часа.
Для поездок продолжительностью от 24 до 72 часов погрешность ±6 часов считается хорошей оценкой.
Для поездок продолжительностью более 72 часов погрешность ±12 часов считается хорошей оценкой.

В эту синтетическую метрику можно добавить еще больше факторов пользовательского опыта. Например:

Определение пороговых значений на основе срочности — для всех поездок в часы пик (с 7:00 до 10:00 и с 17:00 до 20:00) ошибки в пределах 20 % считаются хорошими оценками; для всех поездок в непиковые часы хорошими оценками считаются ошибки в пределах 40%.

Определите пороговые значения в зависимости от типа клиента. Для поездок с участием VIP-клиентов ошибки в пределах 10 % считаются хорошими оценками, тогда как пороговое значение составляет 20 % для всех остальных поездок.

Эта метрика Good Estimation % может намного лучше показать, что ваши пользователи думают о своих ETA.

С другой стороны, вы можете изучить жалобы пользователей и узнать, как выглядит плохая оценка. В дополнение к более положительному аналогу может быть введена метрика % ошибочной оценки, и вы можете оптимизировать свои операции с учетом этих метрик.

Получите информацию от визуализации

Все метрики в мире бессмысленны, если вы не можете извлечь из них какую-либо информацию. Визуализации чрезвычайно полезны именно для этого. Давайте рассмотрим несколько примеров извлечения информации из визуализации данных.

График расчетного времени прибытия/расстояния в процентах

Этот график учитывает факторы расстояния ETA. Это помогает нам быстро понять, вызваны ли ошибки трафиком или выбором маршрута. На приведенном выше графике мы видим необычную группу образцов, в которых расстояния вполне постоянны, но ожидаемое время прибытия на 200 % отличается от фактического. Следовательно, можно сделать вывод, что ошибки вызваны трафиком, а не выбором маршрута.

Коробчатый график

Блочная диаграмма — широко используемый инструмент для визуализации разброса данных. Он отображает минимальное, первый квартиль, медиану, третий квартиль и максимальное значение набора данных. Усы, выходящие из прямоугольников, указывают на диапазон данных, в то время как отдельные точки за пределами усов являются выбросами в данных. На приведенном выше рисунке мы легко видим, что в интервале 0–5 минут происходит значительное отклонение, что требует более глубокого изучения.

График расчетного времени прибытия за 24 часа

Это 24-часовой график, на котором сравниваются завышенные (желтые) и хорошие оценки (зеленые) и заниженные (красные) ETA. Размещая данные таким образом, становится очевидным, что существует проблема с трафиком. Данные о трафике, используемые для генерации ETA в этом сценарии, вероятно, представляют собой средние данные за каждый день, которые обычно быстрее, чем трафик в часы пик, и медленнее, чем трафик в нечасы пик. Это объясняет плохо оцененные ETA.

Групповые поездки

Этот график сравнивает ошибки оценок расстояний с фактическими расстояниями. Мы видим значительную группу более длительных поездок, демонстрирующую тенденцию к недооценке, которую стоит изучить. Это может привести нас к основной проблеме — в данном случае, возможно, к проблеме с трафиком.

Иногда это искусство – творчески сгруппировать данные таким образом, чтобы истина, стоящая за данными, раскрылась. В транспорте некоторые полезные группы включают:

Группировка по длительности поездок
Группировка по внутригородскому или межгородскому
Группировка по утреннему пику, полудню, вечернему пику, ночи и полуночи
Сгруппировать по дням недели или выходным
Сгруппировать по городу-региону или стране-региону
Группировка по типам транспортных средств
Комбинации вышеперечисленного

Также может быть весьма полезно просмотреть треки недели за неделей или месяца за месяцем.

На изображении выше мы видим тенденции ETA в разных странах. С первого взгляда можно сказать, что в стране 2 во время курортного сезона в июле и августе модели движения стали более непредсказуемыми.

В целом, вероятно, будет справедливо сказать, что сравнительный анализ ваших ETA редко бывает простым или легким процессом. Тем не менее, это ваш самый первый шаг к созданию высококачественных ETA и, следовательно, чрезвычайно ценное упражнение. Мы надеемся, что эта статья поможет вам сделать этот важный шаг целенаправленно и уверенно.