Отслеживание эффективности модели машинного обучения в полевых условиях так же важно, как и разработка модели. Данные реального мира постоянно меняются, поэтому модель, обученная на старых данных, может устареть и давать плохие результаты на более свежих данных. Например, рассмотрим период начала 2020 года, когда внезапное объявление о блокировках по всему миру привело к нарушению цепочки поставок и другим проблемам. Большинство моделей машинного обучения не были бы обучены работать в таких экстремальных условиях и, скорее всего, ошиблись бы в тот период.

Поэтому крайне важно, чтобы модели машинного обучения регулярно переобучались с использованием последних данных. Проблема заключается в том, что во многих приложениях целевые метки недоступны и/или дороги. Поскольку маркировка данных обременительна и дорогостояща, необходимо разумно подходить к тому, какие точки данных необходимо аннотировать и в течение какого периода времени. Это становится проблемой куриного яйца. Чтобы оценить производительность модели, вам нужны метки; и чтобы узнать, нужны ли вам метки (для переобучения модели), вам нужно знать, ухудшилась ли производительность.

Здесь я расскажу о двух подходах, которые можно использовать для определения того, изменилась ли производительность модели. Эти подходы неконтролируемые, т. е. не требуют целевых меток для этой оценки. Объяснения здесь краткие, ссылки на полные ресурсы приведены в конце.

ШПИЛЬКА

  • Используется для обнаружения расхождения концепций.
  • Что такое дрейф концепций:
     — Изменения в априорных вероятностях классов P(y) или изменения в условных вероятностях класса P(X|y) ).
    -
    Любой из них может изменить апостериорные вероятности P(y|X), тем самым влияя на производительность модели.
  • STUDD основан на архитектуре ученик-учитель, которая обычно используется для сжатия модели и выгонки знаний. Здесь модель студента обучается имитировать поведение модели учителя.
  • Методология:
     — набор обучающих данных D с известными метками целей используется для построения модели учителя T.
     –
    Обученная модель T используется для прогнозирования на проверочном наборе V.
    прогнозы, полученные на V с использованием T используются в качестве меток для обучения другой модели S, то есть модели Student. (Фактические целевые метки не требуются)
     — Частота ошибок (или потерь) S рассчитывается как разница между прогнозом T и прогнозом С.

  • Гипотеза:
    – Возникновение дрейфа понятий нарушит совместное поведение
    между моделями учителя и ученика.
    – Дрейф понятий приведет к частоте ошибок S заметно измениться, указывая на то, что он больше не может имитировать поведение модели учителя в этой области.
    - Это изменение частоты ошибок с течением времени можно обнаружить с помощью статистического подхода, такого как тест Пейджа-Хинкли.
  • При обнаружении дрейфа концепции можно выполнить упражнение по маркировке, и модель может быть переобучена с использованием последних меток для изучения этой новой информации.
  • Выводы:
     – STUDD способен своевременно выявлять отклонения в концепции и не уступает контролируемым подходам.
     – Он более эффективен с точки зрения количества обнаруживаемых изменений. , поэтому маркировку необходимо проводить реже, что снижает затраты.

Обнаружение дрейфа с помощью слабых срезов данных

  • Это также неконтролируемый метод обнаружения дрейфа в производительности модели.
  • Что такое срез данных:
    – это способ разбиения пространства признаков набора данных.
    – числовые признаки можно объединять в группы, а категориальные признаки – объединять в клубы.
    — Пример:
    — функции, учитывающие основные бизнес-требования, такие как возраст населения и т. д., могут использоваться для создания срезов данных.
    — для неструктурированных данных, таких как данные изображения, метафункции, такие как информация о домене. (например, животные, мебель, предметы искусства и т. д.) могут быть использованы.
  • Методология:
     – Создайте тестовый набор данных D и разделите его на две части D1, D2.
     – Найдите общую частоту ошибочных классификаций mcr (или частоту ошибок) в D1.
     – Разделите данные в D1. в соответствии с выбранным правилом нарезки объектов для создания срезов данных.
     – Найдите mcr в каждом из срезов данных, т. е. локальный mcr.
    Слабые срезы: срезы данных, в которых локальный mcrобщий mcr
    – к набору данных применяется одно и то же правило среза. D2, а слабые фрагменты в D2 назначаются в соответствии с найденными в D1.
     – Отслеживаются относительные размеры слабых фрагментов для определения общего изменить данные, не зная mcr для D2.

  • Пример.
     – На приведенном выше рисунке срез age=45–60 является слабым срезом данных, поскольку локальный mcr составляет 50 %, что больше, чем общий mcr, равный 20 %.
    – Относительный размер этого слабого фрагмента в D1 составляет 10/60 = 16,6%.
    – Относительный размер этого слабого фрагмента в D2 составляет 30/80 = 37,5%
    . Гипотеза состоит в том, что общее количество ошибочных классификаций в D2 будет выше, поскольку относительный размер слабого среза увеличился в наборах данных.
  • Статистическая структура:
    – Более тонкий способ обнаружения изменений в относительных размерах – проверка гипотез.
    – Проверка гипотез проводится на каждом срезе, чтобы проверить различия в пропорциях. .
     – Выполнив односторонний тест гипотезы, можно проверить, находится ли большая часть случаев в слабых срезах набора данных D2.

Рекомендации



STUDD: метод «ученик-преподаватель для неконтролируемого обнаружения дрейфа понятий
Обнаружение дрейфа понятий является важной задачей в меняющихся средах потока данных. Большинство современных подходов…arxiv.org»