Иногда у детей вырабатываются [обучаются] плохие привычки, но позже, когда они вырастают, они могут оставлять их [разучиться]. Точно так же машины, которые хорошо учатся, но должны уметь разучиваться, если это необходимо. Рассмотрим сценарий, когда хакер вводит некоторые синтетические данные в модель обнаружения выбросов со злым умыслом, чтобы испортить прогнозы. Повторное обучение модели с нуля может оказаться невозможным из-за того, что добавочная модель обучается на непрерывном потоке входящих данных. Механизм отучения, если он включен в моделировании, поможет нам справиться с этой непосредственной угрозой безопасности.

ИИ — это новое электричество

Автономные транспортные средства, робототехника, умные дома, индустрия 4.0 и интернет вещей — вот лишь некоторые из примеров, которые меняют нашу жизнь в феноменальных масштабах. Как следствие, данные генерируются повсеместно, и важность данных и машинного обучения чрезвычайно возросла. Эксперты справедливо говорят, что Искусственный интеллект — это новое электричество. Эта аналогия приравнивает данные к новым электрическим кабелям или цепям.

В этой статье я сосредоточусь на проблемах машинного обучения из-за внезапных изменений данных, известных как Дрейф распределения, и на том, как смягчить их путем переобучения или отказа от обучения. Очевидно, что данные — это новая валюта 21 века. Поскольку стоимость валют колеблется в зависимости от различных факторов, аналогичным образом валюта данных колеблется в зависимости от времени и качества, в частности время обесценивает ее.

Жизненный цикл науки о данных

Наука о данных представляет собой серию повторяющихся шагов, включая понимание бизнеса, сбор данных, моделирование и развертывание. Сбор данных можно рассматривать как первый практический шаг в процессе обработки данных. См. жизненный цикл науки о данных на следующей диаграмме.

Организации, управляемые данными, собирают данные из нескольких внутренних и внешних источников, которые попадают в их платформу озера данных. Он обеспечивает организациям гибкость, демократичный доступ к данным через единое унифицированное представление данных по всей организации и возможность извлекать выгоду из неограниченных типов данных. Эти данные в конечном итоге используются для моделирования, чтобы обеспечить производство продуктов на основе машинного обучения.

Дрейф распределения данных

Изменения — постоянная реальность этой вселенной. Нестабильные ситуации включают социально-экономические факторы, факторы безопасности, политические факторы и т. д. Внезапные изменения данных, поступающие из ряда внешних источников, неподконтрольных нам, называются дрейфом распределения.Например, в сфере туризма Египет был популярным местом для туристов, но после 2011 года эта тенденция начала снижаться, вероятно, из-за плохой безопасности и политической стабильности. Напротив, туристическая индустрия Индии развивается, вероятно, из-за улучшения экономической и политической ситуации. Условия поиска Google можно использовать для приблизительной оценки изменения тенденции, по крайней мере, для англоязычного населения во всем мире.

Проблемы машинного обучения

Одной из самых сложных проблем в науке о данных в настоящее время является объективное отслеживание таких факторов изменения. Основная проблема в том, что факторов слишком много и, что еще хуже, большинство из них невозможно точно или даже объективно измерить. Эти недостатки делают алгоритмы машинного обучения менее точными и более ориентированными на недавнее прошлое, другими словами, на свежие данные. В индустрии туризма пользовательские тренды можно разделить на колебательные модели и неколебательные модели.

Колебательные модели применимы и к другим видам бизнеса, они относительно легко предсказуемы и повторяются с небольшими изменениями каждый год. Например, в январе люди начинают искать в Интернете идеи для следующего летнего отпуска. Пик общего числа посещений в январе можно увидеть на обоих туристических сайтах. Такие колебательные модели пользователей можно наблюдать в различных веб-показателях, включая клики, заказы, доход и т. д.

Неколебательные паттерны — это неповторяющиеся тренды, т.е. намерения пользователей на туристических сайтах, которые являются новыми и иногда привязанными к пространству и времени. Эти временные и постоянные изменения тенденций портят, а иногда и делают недействительными модели машинного обучения, обученные в автономном режиме. Например, если этим летом турист посетит Париж на одну неделю, скорее всего, он больше не посетит его. Таким образом, пользовательские данные, созданные на туристическом портале пользователем в этом году, могут быть не очень актуальными в следующем году для прогнозирования того, куда пользователь хотел бы отправиться, хотя некоторая социально-демографическая информация может все еще быть актуальной с прошлого года. Здесь самые последние взаимодействия пользователя будут перевешивать все его предыдущие взаимодействия с порталом, например. параметры поиска, регионы и время поездки и т. д.

Ценностное предложение исторических данных

Ценностное предложение для крупномасштабных исторических данных зависит в первую очередь от контекста проблемы с точки зрения колебательных и неколебательных трендов, как объяснялось в предыдущем разделе. В таких задачах прогнозирования ценность данных обратно пропорциональна времени, когда данные генерируются. Несмотря на потерю ценности с течением времени, исторические данные в сочетании с более новыми внешними данными могут помочь оценить некоторые колебательные модели или относительно простые бизнес-вопросы, например. ожидаемый диапазон бюджета поездки пользователя на следующий год. Возможность новых вариантов использования данных и характер бизнес-вопросов можно использовать для количественной оценки ценности данных и обоснования затрат на их хранение.

Машинное переобучение под наблюдением

Обучение с учителем использует исторические данные для прогнозирования будущего. Основное предположение здесь состоит в том, что тенденции в исторических данных точно повторяются в будущем, что разваливается в случае неколебательных тенденций и вызывает ошибки производительности модели. Модели машинного обучения обучаются либо в автономном режиме в пакетном режиме с историческими данными, либо в интерактивном режиме в добавочном режиме на основе входящих потоков входных данных. Оба метода имеют свои плюсы и минусы, когда происходит дрейф распределения.

Автономные пакетные модели

Автономные модели, обученные в пакетном режиме, имеют самое катастрофическое влияние дрейфа распределения. Требуется ПОВТОРНОЕ ОБУЧЕНИЕ модели каждый раз, когда обнаруживается дрейф распределения. Основная задача здесь состоит в том, чтобы найти эти изменения в режиме реального времени, временные рамки и их характер, чтобы они были либо временными, либо постоянными. Ситуация усложняется, если обнаруживается дрейф распределения, но новые данные содержат либо отсутствующие, либо неправильные значения данных, которые были ключевыми для модели. Здесь возникает компромисс между новой моделью с отсутствующими/неправильными данными и старой моделью с дрейфом распределения. Информированное решение должно быть принято на основе бизнес-требований.

Инкрементальные онлайн-модели

Онлайн-модели, обученные в инкрементном режиме, хоть и устойчивы к дрейфу распределения, но производительность этих моделей обычно ниже, чем у автономных моделей. С другой стороны, эти модели имеют самое катастрофическое влияние из-за отсутствия или неправильной информации. Например, данные отслеживания внезапно начали включать некоторую личную идентификационную информацию, или хакер ввел синтетические данные в модель обнаружения выбросов, чтобы испортить ее прогнозы. данные без личной идентификационной информации или без синтетических данных хакера, но это может быть невозможно из соображений конфиденциальности и безопасности. В этой ситуации должны быть применены некоторые модельные стратегии НЕОБУЧЕНИЯ, чтобы вся система забыла о плохом обучении.

Обучение статистическим запросам – это метод, который можно использовать, чтобы легко забыть плохое обучение. Для получения дополнительной информации можно обратиться к исследовательской работе, такой как «На пути к тому, чтобы системы забыли с помощью машинного обучения», проведенной Иньчжи Цао и Юньфэн Янгом в Колумбийском университете в 2015 году. на этих техниках. Ссылка на видео презентации размещена ниже

Резюме

Дрейф распределения данных и отсутствующие значения данных вызывают нарушения как в автономных пакетных моделях, так и в интерактивных инкрементных моделях, которые можно смягчить путем повторного обучения и отмены обучения соответственно. Иногда переобучение не является возможным решением, и переход на подход к разучению становится необходимостью, но требует некоторой настройки моделирования с использованием языка статистических запросов. Прежде чем создавать какую-либо модель машинного обучения, понимание этих аспектов конфиденциальности данных и требований к инфраструктуре модели поможет создать более качественные и надежные модели, которые могут обучаться и разучиваться по требованию.