Инкрементное обучение с помощью машин опорных векторов (ISVM)

Машины опорных векторов (SVM) - популярный инструмент для обучения с большими объемами многомерных данных. Однако иногда может быть предпочтительнее учиться постепенно на основе предыдущих результатов SVM, поскольку вычисление SVM очень затратно с точки зрения времени и потребления памяти или потому, что SVM может использоваться в настройке онлайн-обучения. В этой статье представлен подход к инкрементному обучению с помощью машин опорных векторов, который улучшает существующие подходы. Даются эмпирические данные, чтобы доказать, что этот подход может эффективно справляться с изменениями в целевой концепции, которые являются результатом установки постепенного обучения.

Я продолжаю развивать тему инкрементального онлайн-обучения, как было упомянуто в моей статье Введение в онлайн-машинное обучение. Возможность постепенного обучения на основе пакетов данных - важная особенность, которая делает алгоритм обучения более применимым к реальным проблемам. Пошаговое обучение может использоваться для сохранения памяти и затрат времени алгоритма обучения на управляемом уровне или потому, что нужно делать прогнозы в то время, когда все данные еще не доступны (настройка онлайн). Самый важный вопрос инкрементального обучения заключается в том, может ли целевая концепция меняться между этапами обучения или предполагается, что она будет постоянной. Первый случай называется дрейфом понятий, второй - истинным инкрементальным обучением. Практическая разница между обоими видами обучения заключается в том, что в настройке дрейфа концепций старые примеры могут вводить в заблуждение, поскольку они являются примерами старой целевой концепции, которая может сильно отличаться от концепции, которую пытаются изучить. В случае истинного инкрементального обучения все примеры содержат одинаковую информацию о целевой концепции. Как следствие, можно судить о производительности алгоритма инкрементального обучения, просто сравнивая его результаты с результатами алгоритма обучения, обученного одновременно всем данным, что является золотым стандартом. В этой статье речь пойдет об инкрементальном обучении.

Машины опорных векторов успешно использовались для обучения с большими и многомерными наборами данных. Это связано с тем, что свойство обобщения SVM не зависит от всех обучающих данных, а зависит только от их подмножества, так называемых опорных векторов. К сожалению, само обучение SVM может занять очень много времени, особенно при работе с зашумленными данными. Поскольку количество опорных векторов обычно очень мало по сравнению с количеством обучающих примеров, SVM обещает стать эффективным инструментом для инкрементального обучения за счет сжатия данных предыдущих пакетов в их опорные векторы. Этот подход к инкрементальному обучению с помощью машин поддерживающих векторов был исследован, и было показано, что SVM с инкрементальным обучением очень хорошо сравниваются с их эквивалентом без инкрементального обучения.

Проблема дрейфующих концепций в инкрементальном машинном обучении опорных векторов была решена, и было экспериментально подтверждено, что SVM хорошо справляются с дрейфующими концепциями в отношении критериев стабильности результата на этапах обучения, повышения точности прогнозирования во время продвижения обучение и возможность устранения ошибок, возникших в результате дрейфующих концепций. Другой подход к обработке дрейфующих концепций оценщика производительности был использован для определения того, действительно ли произошел дрейф в лежащей в основе концепции, после чего старые данные были отброшены, а обучение происходило только на новых данных.

Машины опорных векторов
Машины опорных векторов (SVM) основаны на работах Владимира Вапника в области теории статистического обучения. Теория статистического обучения занимается вопросом, как найти функцию из класса функций, которая минимизирует ожидаемый риск.

относительно функции потерь L, когда распределение примеров P (x) и их классификации P (y | x) неизвестны и должны оцениваться на основе конечного числа примеров.

Алгоритм SVM решает эту проблему путем минимизации регуляризованного риска, который представляет собой взвешенную сумму эмпирического риска, связанного с данными, и члена сложности || w || ²

В своей базовой формулировке SVM находят линейную решающую функцию y = f (x) = sign (w * x + b), которая минимизирует ошибку прогнозирования на обучающем наборе и обещает, что наилучшее обобщение минимизирует ошибку прогнозирования на обучающем наборе и обещает лучшую производительность обобщения. В примерах (x1, y1),…, (xn, yn) это делается путем решения следующей задачи оптимизации:

при условии

Вектор гиперплоскости w имеет представление в терминах обучающих примеров (xi, Yi) и их лагранжевых множителей (alpha_i), которые вычисляются в процессе оптимизации:

Оптимальная константа C для рассматриваемой задачи обучения обычно определяется каким-либо методом выбора модели, например перекрестная проверка.

Новый алгоритм инкрементального обучения

Как указано выше, алгоритм SV-инкремента страдает от проблемы, заключающейся в том, что опорные векторы не описывают весь набор данных, а только индуцированную им решающую функцию. Чтобы решить эту проблему в алгоритме инкрементного обучения, нужно сделать ошибку в старых опорных векторах (которые представляют собой старый обучающий набор) более затратно, чем ошибка в новом примере. К счастью, это легко сделать с помощью алгоритма опорного вектора. Пусть (xi, Yi) будут старыми опорными векторами, а (x’i, y’i) - новыми примерами. потом

Эту модификацию проблемы SVM можно рассматривать как обучение SVM новой функции потерь. Естественный выбор для L - позволить L быть количеством примеров в предыдущем пакете, деленным на количество опорных векторов.

Это происходит из идеи аппроксимировать среднюю ошибку общих примеров произвольной функции принятия решений средней ошибкой только по опорным векторам. Другими словами: каждый опорный вектор обозначает постоянную долю всех примеров. Этот алгоритм будет называться SV-L-инкрементным алгоритмом.