Преодоление ограничений традиционных экспериментов с помощью Holdout Testing

В этой совместной статье Apratim Mukherjee и Rudrendu Paul делятся своим опытом в области методов тестирования Holdout в продуктовом бизнесе. Опираясь на свой опыт работы в сфере высоких технологий, авторы предоставляют подробный обзор различных типов и приложений статистических методов, используемых для оценки эффективности моделей машинного обучения на новых данных.

Введение

Тестирование на выносливость

Тестирование удержания — это статистический метод, используемый для оценки производительности модели машинного обучения на новых данных. Это включает в себя выделение части набора данных для целей тестирования, а остальная часть используется для обучения модели. В современных быстро меняющихся и гибких средах разработки контрольное тестирование является ценным инструментом для команд, стремящихся понять производительность своих моделей и принять обоснованные решения о своих усилиях по разработке продукта.

Преимущества защитного тестирования

Одним из ключевых преимуществ задержек тестирования является то, что оно позволяет командам оценивать совокупное влияние их усилий с течением времени. Из-за очень коротких циклов от идеи до релиза и гибкой культуры быстрой итерации при создании функций традиционные эксперименты могут не удовлетворить потребности команд в скорости. Вместо того, чтобы тестировать отдельные функции, команды часто больше заинтересованы в понимании общего влияния ряда инвестиций. Тестирование удержания позволяет командам делать это, выделяя часть своих данных для целей тестирования и оценивая производительность своих моделей с течением времени.

Выдерживающее тестирование также полезно для руководящих команд, которые хотят понять долгосрочное влияние продукта или функциональной области и их вклад в полярную звезду компании. Выделив часть своих данных для целей тестирования и оценки производительности своих моделей в течение более длительного периода времени, руководители могут лучше понять долгосрочную ценность своих продуктов и функций.

В дополнение к этим преимуществам тестирование удержания также может быть полезно для команд, которые заинтересованы в постановке надежных и точных дополнительных целей на последующие финансовые периоды. Это часто делается для того, чтобы оправдать инвестиции в конкретный продукт или область функций. Откладывая часть своих данных для целей тестирования и оценивая производительность своих моделей на постоянной основе, команды могут ставить цели, основанные на надежных и точных данных, а не на догадках.

Типы задержек

Команды могут использовать несколько типов задержек, в том числе задержку функций, долгосрочную задержку и задержку в течение полугода или года за годом.

Задержка функции

Удержание функции — это тип тестирования удержания, при котором конкретная функция откладывается для целей тестирования, а остальные данные используются для обучения модели. Этот метод полезен для оценки производительности отдельных функций и может помочь командам понять, какие функции наиболее ценны для их продукта.

Долгосрочное удержание

Долгосрочное удержание — это тип удержанного тестирования, при котором часть данных откладывается для целей тестирования и используется только по прошествии длительного периода времени. Этот метод полезен для оценки долгосрочной эффективности модели и может помочь командам понять совокупное влияние их усилий с течением времени.

Половина на половину или годовая задержка

Половина на половину или годовая задержка — это тип проверки задержек, при котором половина данных откладывается для целей тестирования, а другая половина используется для обучения. Этот метод удобен для оценки производительности модели за более длительные периоды времени, например за финансовый год.

Случаи использования и примеры тестирования с задержкой

Существует множество вариантов использования для тестирования удержания.

Пример 1. Система рекомендаций для веб-сайта электронной коммерции

Например, команда, создающая механизм рекомендаций для веб-сайта электронной коммерции, может использовать задержку функций для оценки эффективности различных функций, таких как категории продуктов или история покупок.

Пример 2. Система профилактического обслуживания для производственного предприятия

Команда, разрабатывающая систему профилактического обслуживания для производственного предприятия, может использовать долгосрочную задержку для оценки производительности своей модели в течение нескольких лет.

Пример 3. Инструмент финансового прогнозирования

А команда, разрабатывающая инструмент финансового прогнозирования, может использовать ежегодную задержку для оценки эффективности своей модели на ежегодной основе.

Ограничения тестирования удержания

Несмотря на множество преимуществ задержек тестирования, важно признать, что это не идеальное решение.

Возможность получения необъективных результатов

Одно из возможных ограничений заключается в том, что зарезервированная выборка может не быть репрезентативной для всего набора данных, что может привести к необъективным результатам.

Длительный процесс

Кроме того, контрольное тестирование может занять много времени, так как требует создания отдельных наборов данных для обучения и тестирования.

Отсутствие измерения неопределенности модели

Другим потенциальным ограничением тестирования удержания является то, что оно не дает меру неопределенности модели. Это означает, что трудно узнать, насколько модель уверена в своих прогнозах, что может затруднить определение того, насколько надежны результаты.

Несмотря на эти ограничения, контрольное тестирование остается ценным инструментом для команд, работающих в agile-средах, где быстрая итерация создания функций может затруднить традиционные эксперименты. Выделив часть своих данных для целей тестирования, команды могут лучше понять производительность своих моделей и принимать более обоснованные решения о своих усилиях по разработке продукта.

Заключение

В заключение, тестирование удержания является полезным методом для оценки производительности моделей машинного обучения на новых данных. Это позволяет командам оценивать совокупное влияние их усилий с течением времени и ставить надежные и точные цели на будущие финансовые периоды. Хотя это не идеальное решение, контрольное тестирование остается важным инструментом для команд, стремящихся понять производительность своих моделей и принять обоснованные решения о своих усилиях по разработке продукта.

Связаться с автором

Если вам понравилась эта статья и вы хотите оставаться на связи, не стесняйтесь подписаться на меня в Medium и связаться со мной в LinkedIn. Я хотел бы продолжить разговор и услышать ваши мысли на эту тему.