Что такое машинное обучение?

Машинное обучение (МО), подмножество искусственного интеллекта (ИИ), представляет собой область вычислительной науки, которая фокусируется на интерпретации и анализе шаблонов или структур данных, чтобы обеспечить обучение, рассуждения и принятие решений вне человеческого взаимодействия.

Машинное обучение позволяет пользователю передавать огромное количество данных на компьютер, а компьютер анализировать и давать рекомендации и решения, основанные на данных, на основе только входных данных. Если будут выявлены какие-либо ошибки, алгоритм может включить эту информацию для повышения точности принятия решений в будущем.

Переобучение против недообучения

Чтобы найти решение, мы должны сначала понять проблему. Прежде чем мы приступим к изучению перекрестной проверки, давайте сначала поймем разницу между переоснащением и недообучением.

Модель переобучения. Переоснащение происходит, когда алгоритм машинного обучения улавливает шум данных. Интуитивно переобучение происходит, когда алгоритм или модель слишком хорошо соответствуют данным. Модель переобучения дает хорошую точность для обучающего набора данных, но плохие результаты для нового набора данных.

Модель недостаточного соответствия.Недостаточное соответствие возникает, когда алгоритм машинного обучения не может уловить основную тенденцию данных. Интуитивно недообучение происходит, когда алгоритм или модель недостаточно хорошо соответствуют данным. Недостаточное оснащение часто является результатом чрезмерно простой модели.

Почему мы используем SVM?

Машина опорных векторов (SVM) является частью методов обучения с учителем (машинного обучения). SVM использовал статистический метод, в котором данные поезда можно использовать для создания системы принятия решений, которая будет использоваться для прогнозирования нового значения. Прогнозирование ошибок рассчитывается на основе общих результатов тестовых данных, и результаты используются для оценки качества созданной модели. Ниже перечислены преимущества SVM:

  1. SVM хорошо работает, когда между классами есть четкое разделение полей,
  2. SVM более эффективен в многомерных пространствах (в случаях, когда количество измерений больше, чем количество выборок), и
  3. Он использует подмножество точек обучения в функции принятия решений (называемых опорными векторами), поэтому он также относительно эффективен с точки зрения памяти.

Перекрестная проверка в SVM

Перекрестная проверка — это статистический метод оценки и сравнения алгоритмов обучения путем разделения данных на два сегмента: один используется для обучения модели, а другой — для проверки модели.

В типичной перекрестной проверке наборы для обучения и проверки должны пересекаться в последовательных раундах, чтобы каждая точка данных имела шанс быть проверенной.

В машине опорных векторов есть три параметра. Объяснение этих параметров следующее:

  • C(параметр регуляризации): параметр C уравновешивает компромисс между сложностью модели и эмпирической ошибкой. Чтобы упростить, когда C велико, SVM имеет тенденцию к переоснащению, а когда C мало, SVM имеет тенденцию к несоответствию.
  • γ(gamma): параметр γ определяет вывод SVM функцией ядра. Чтобы упростить, когда γ велико, SVM имеет тенденцию к переоснащению. С другой стороны, когда γ мало, SVM имеет тенденцию не соответствовать
  • ε(эпсилон): ε-интенсивная функция потерь влияет на гладкость ответа SVM и влияет на количество опорных векторов, поэтому как сложность, так и способность к обобщению модель зависит от ее стоимости.

Приведенные выше параметры следует настроить, чтобы найти наилучшую комбинацию параметров с помощью методов поиска по сетке.

SVM-приложение

Вот пример применения SVM для прогнозирования мировых цен на золото. Первым шагом является обучение исторических данных. Мы используем историю цен на золото с 1950 по 2018 год в качестве данных поезда. На этом этапе исторические данные обучаются с помощью перекрестной проверки. Затем эта модель применяется для прогнозирования цены на золото в период с 2019 по 2039 год.

Вывод

В этой статье мы не рассматривали математику SVM. Чтобы узнать больше об этом, вы можете прочитать статью Машинное обучение: вероятностная перспектива, автор Кевин П. Мерфи. Это может занять некоторое время, чтобы понять вывод. Вы также можете посетить sklearn документацию SVM, чтобы узнать больше о реализации алгоритма в Python. Если у вас есть какие-либо сомнения, вы можете опубликовать их в разделе комментариев. Спасибо :)