Снижение дисперсии на стероидах… представляем MLRATE

Чтобы сравнить характеристики автономного вождения, Wayve использует MLRATE: использование машинного обучения для более быстрого достижения статистической мощности при экспериментировании.

Скажем, вы проводите эксперимент, и существует реальная разница в средних значениях между контрольной и вариантной популяциями. Вы обнаружите это? Это зависит от трех вещей:

Размер эффекта
Количество ваших образцов, которые вы собираете
Дисперсия вашего измерения

Размер вашего эффекта не часто можно изменить. Увеличение размера выборки требует больше времени и может быть дорогостоящим. Итак, нам остается рассмотреть третий вариант: как сделать измерения менее шумными?

В Wayve мы разрабатываем технологию автономного вождения, используя сквозное глубокое обучение, поэтому оцениваем разницу в реальных характеристиках вождения между двумя моделями на дороге как самым быстрым, так и наиболее надежным способом. очень важно. Одна из проблем заключается в том, что условия заметно различаются между пробегами: от погоды до плотности движения и пешеходов, идущих по сойке. Таким образом, вместо того, чтобы рассматривать различные условия как шум, который усредняется в больших экспериментах (как в традиционных процедурах эксперимента), мы вместо этого хотим использовать сигнал и учиться на каждом взаимодействии.

Используя оценщик эффекта лечения с поправкой на машинное обучение (MLRATE, Meta 2022), мы можем использовать сложные нелинейные отношения, которые модели машинного обучения могут изучать между такими мешающими переменными и эффективностью вождения, и реализовывать это надежным способом с использованием обобщенной линейной модели. Это позволяет нам достичь статистической значимости при меньшем размере выборки. Например, в Wayve мы обнаружили, что можем вдвое сократить количество пройденных километров, необходимое для достижения статистической значимости, используя MLRATE.

Некоторый контекст: простые A/B-тесты могут быть крайне неэффективными.

Рандомизированные контролируемые тесты (РКИ) традиционно являются золотым стандартом для измерения улучшений. RCT часто используются в технологической отрасли для онлайн-тестирования моделей машинного обучения, обычно случайным образом разбивая базу пользователей на контрольную группу (пользователи, работающие со старой моделью ML) и вариантную группу (пользователи, работающие с новой моделью ML), и наблюдая за разница в средних показателях производительности между двумя группами (тест A/B, получение оценщика разницы в средних). Эти эксперименты часто собирают миллионы точек данных для этого процесса: крупномасштабная рандомизация важна, чтобы гарантировать, что у нас есть репрезентативная выборка для тестирования, чтобы облегчить более объективные сравнения и повысить статистическую достоверность того, что измеренное улучшение является подлинным, а не просто шумом.

Но крупномасштабная рандомизация не работает для реального вождения. Случайное тестирование маршрутов означает огромные различия в ландшафте, по которому должна перемещаться модель вождения, от островков безопасности до строительных зон — эта дисперсия сделала бы наши выводы неуверенными без большого размера выборки, и невозможно собрать столько данных о вождении для каждую новую модель, когда мы хотим повторять и быстро учиться. Даже тестирование двух моделей вождения на одном и том же маршруте (т. е. парные тесты) не решает эту проблему. Например, мы не можем контролировать динамических агентов, таких как автомобили или велосипедисты, или если одна модель вождения имеет все зеленые огни, а другая — все красные. Кроме того, ограничение определенными маршрутами может означать чрезмерную оптимизацию для этих конкретных тестовых маршрутов. Wayve хочет стать первой компанией, которая автономно охватит 100 городов: мы не можем просто адаптировать наши тесты к дорогам, по которым мы ездим сегодня, и нам нужно сравнивать модели вождения, которые не ездили по одним и тем же участкам дороги, используя понимание того, насколько хорошо наши автомобили ведут себя в областях, в которых они никогда раньше не ездили.

Типичные методы уменьшения дисперсии могут достичь статистической значимости быстрее, но мы можем пойти дальше.

Исследователи данных часто используют методы уменьшения дисперсии, чтобы улучшить обнаружение реальных улучшений, которые были бы слишком малы для анализа со статистической достоверностью при меньшем размере выборки. Например, можно обнаружить, что водители наиболее эффективны на кольцевых развязках, когда плотность движения ниже. Измерение производительности водителя на круговом движении на всех уровнях трафика будет иметь большую дисперсию в измерении, поэтому мы будем менее уверены в том, является ли наблюдаемая разница в производительности подлинной или случайной. Мы ожидаем, что когда один водитель сталкивается с меньшим трафиком, он будет работать лучше, поэтому мы должны включить эти ранее существовавшие знания в наш эксперимент.

Распространенным методом снижения дисперсии является Контролируемые эксперименты с использованием ранее существовавших данных (CUPED, Microsoft 2013), где некоторые линейные ковариаты (такие как плотность трафика) используются для корректировки простых оценщик разницы в средних.

По сути, это эквивалентно простой линейной регрессии! Что полезно обозначить сейчас, чтобы лучше контекстуализировать MLRATE позже:

Где:

Y – вектор измеренных значений для каждого наблюдаемого образца.
V — фиктивная переменная, отражающая, находился ли собранный образец в группе вариантов или нет.
X записывает значение соответствующей ковариаты при сборе этой выборки.

Следовательно, нас интересует оценка коэффициента 𝛿1 (величина улучшения нашей метрики y из-за в группе вариантов вместо контроля). Включение простой фиктивной переменной v эффективно понижает среднее значение каждой выборки по групповому среднему, поэтому это эквивалентно обычным t-тестам.

Результирующая стандартная ошибка для 𝛿1больше при исключении соответствующей переменной x, как видно на графиках левый выше — включение егоуменьшает стандартную ошибку и,следовательно, с большей вероятностью будет статистически значимым. Как правило, чем сильнее корреляция ковариаты с y, тем больше уменьшается дисперсия.

(Обратите внимание, что в этом режиме нет ожидаемой систематической ошибки из-за пропуска релевантных переменных, поскольку мы предполагаем, что распределение выборки по экспериментальной или контрольной группам, v,, не зависит ни от какой ковариации x, то есть они ортогональны).

Однако, хотя CUPED очень эффективен для уменьшения дисперсии для нескольких линейно связанных переменных, корректировка многих ковариат со сложными нелинейными отношениями часто выходит за рамки.

В Wayve мы хотим включить в наше тестирование множество смешанных переменных, влияющих на производительность, таких как статические различия в декорациях (например, автобусные полосы, пешеходные переходы), динамические факторы (плотность движения, присутствие велосипедистов), факторы окружающей среды (например, погода, освещенность). и даже человеческие предубеждения со стороны операторов безопасности (и они также часто имеют сложные нелинейные взаимодействия между ними). Использование более сложной модели машинного обучения предоставит более сложный прокси-сервер для облегчения контроля за этими ковариатами.

MLRATE выполняет два шага, чтобы надежно уменьшить дисперсию с помощью моделей ML.

Шаг 1. Обучите и откалибруйте модель машинного обучения.

Чтобы контролировать все желаемые ковариаты, первый шаг включает в себя создание модели машинного обучения для прогнозирования нашей метрики производительности с использованием соответствующих ковариатов.

В Wayve мы обучаем искусственную нейронную сеть (многоуровневый персептрон) на сбалансированном наборе данных, используя все функции, которые нам интересно контролировать во время тестирования (например, динамические агенты). ИНС, как правило, слишком самоуверенны в своих прогнозах, поэтому мы также калибруем с помощью изотонической регрессии, чтобы убедиться, что наши прогнозы производительности линейно связаны с фактической эффективностью (это важно для второго шага, о котором мы поговорим позже).

Для этого первого практического шага мы случайным образом разделяем наши обучающие данные на две части: мы обучаем и калибруем две модели прогнозирования производительности с одинаковой архитектурой, по одной для каждого набора данных, а затем прогнозируем производительность для каждой выборки в каждом наборе данных, используя модель, которой она была. т тренировался. Этот метод перекрестной подгонки (с использованием прогнозирования вне выборки) важен, чтобы избежать систематической ошибки затухания, которая могла бы возникнуть в результате переобучения, если бы вместо этого использовались прогнозы внутри выборки.

Шаг 2. Оцените эффект лечения с поправкой на машинное обучение с помощью GLM

Как и раньше, второй шаг включает запуск обобщенной линейной модели, но вместо использования x(линейной ковариаты), g(X) используется, чтобы показать, как мы используем прогнозы на этапе машинного обучения.

В дополнение к предыдущим регрессиям, член взаимодействия между лечением Vи прогнозом машинного обучения g(X) используется для учета того факта, что прогностический термин может быть менее коррелирован для варианта и, таким образом, привести к пропущенной релевантной систематической ошибке для d_1. (Обратите внимание, что эти значения не имеют значения, чтобы предотвратить высокую мультиколлинеарность с нашей фиктивной переменной, которая в противном случае могла бы сделать этот коэффициент неустойчивым).

В документе MLRATE используются стандартные ошибки с поправкой на гетероскедастичность Хубера-Уайта для получения доверительного интервала для этой оценки (которая определяет, является ли коэффициент статистически значимым). Однако мы часто используем более консервативные кластеризованные стандартные ошибки из-за экспериментальных установок, которые есть у нас в Wayve.

Адаптация сравнений с использованием весов

В Wayve мы продвигаем методологию MLRATE на шаг вперед, адаптируя оценку нашей модели, чтобы можно было проводить сравнения, которые лучше подходят для конкретных ODD-атрибутов маршрутов. Например, наши модели могли быть протестированы в основном на дорогах с высокой плотностью движения со скоростью 20 миль в час, но на типичном маршруте продуктового партнера у нас есть более 30 миль в час, многополосные дороги с более низкой плотностью движения. Таким образом, мы можем захотеть более высоко взвесить наши многополосные сценарии со скоростью 30 миль в час и сделать это соответствующим образом, чтобы соответствовать этому целевому распределению, а не запускать регрессию, как будто каждое испытание одинаково важно.

Мы черпаем вдохновение в запуске обобщенных линейных моделей на данных опросов, который обычно проводят специалисты по принятию решений, чтобы добиться этого. Мы создаем веса для каждого испытания (аналогично расчету весов в данных опроса), используя функции, которые, как мы знаем, предсказывают производительность, и вместо этого запускаем взвешенные регрессии.

Традиционно для определения весов используется итеративная пропорциональная подгонка, чтобы гарантировать, что предельные итоги одинаковы. Однако использование IPF означает, что совместное распределение интересующих нас функций может сильно отличаться от целевого. Таким образом, несмотря на то, что IPF был изучен, Wayve намеренно решил не делать этого, так как мы знаем целевое совместное распределение интересующих нас функций, и мы заботимся о точном сопоставлении этого совместного распределения (особенно с учетом того, что некоторые функции не являются независимыми и их совместное появление может иметь значение). мультипликативное влияние на производительность). Вместо этого мы получаем веса, соответствующие совместному распределению признаков.

Веса усекаются, чтобы гарантировать, что редко тестируемые (потенциально зашумленные) комбинации функций не имеют слишком большого веса (который мы определили путем начальной загрузки наших тестовых данных в автономном режиме). Веса также нормализуются, чтобы степени свободы на этапе регрессии были такими же, как и в невзвешенной GLM.

Автоматизация этого анализа

В Wayve мы автоматизировали весь этот анализ в наших внутренних приложениях. Исследователи машинного обучения могут предоставить определенные фильтры и маршруты, которые они хотят адаптировать, прежде чем мы автоматически обучим нейронные сети и запустим обобщенную линейную модель на лету, создав подробные отчеты за считанные минуты. Эти инструменты упрощают быстрое и надежное сравнение любых двух моделей, позволяя нам ускорить цикл обучения нашего автопарка и наполнить его знаниями, полученными по всем функциям, которые мы фиксируем. Вскоре мы опубликуем запись в блоге об этом!