"Машинное обучение"

6 способов повысить точность модели машинного обучения

Несколько факторов могут повлиять на качество или предсказательную силу вашей модели.

Введение

Одно дело - построить модель машинного обучения. Другое дело, чтобы модель была оптимальной и качественной. В этой статье будут обсуждаться шесть важных факторов, которые могут повлиять на качество или предсказательную силу модели машинного обучения, с включением нескольких тематических исследований.

II. 6 способов повысить точность модели

В этом разделе мы обсудим шесть факторов, которые могут повлиять на качество и предсказательную силу модели. Включены ссылки на несколько реальных приложений.

1. Проверьте качество своих данных.

Данные являются ключом к любой задаче науки о данных и машинного обучения. Данные бывают разных видов, например числовые, категориальные, текстовые, графические, голосовые и видеоданные. Прогностическая сила модели зависит от качества данных, используемых при ее построении. Поэтому чрезвычайно важно, чтобы перед выполнением любой задачи науки о данных, такой как исследовательский анализ данных или построение модели, вы проверяли источник и надежность своих данных, потому что даже наборы данных, которые кажутся идеальными, могут содержать ошибки. Есть несколько факторов, которые могут снизить качество ваших данных. Дополнительные сведения см. В следующей статье: Данные всегда несовершенные.

Обеспечение безошибочности и высокого качества ваших данных поможет повысить точность и надежность вашей модели.

2. Используйте методы уменьшения размерности.

Алгоритм машинного обучения (например, классификация, кластеризация или регрессия) использует набор обучающих данных для определения весовых коэффициентов, которые могут применяться к невидимым данным в целях прогнозирования. Перед реализацией алгоритма машинного обучения необходимо выбрать только релевантные функции в наборе обучающих данных. Процесс преобразования набора данных для выбора только релевантных функций, необходимых для обучения, называется уменьшением размерности. Выбор функций и уменьшение размерности важны по трем основным причинам:

a) Предотвращает переобучение: набор данных большой размерности, содержащий слишком много функций, иногда может привести к переобучению (модель фиксирует как реальные, так и случайные эффекты).

б) Простота. Слишком сложную модель, имеющую слишком много функций, может быть трудно интерпретировать, особенно когда функции коррелированы друг с другом.

c) Вычислительная эффективность: модель, обученная на наборе данных более низкой размерности, является вычислительно эффективной (выполнение алгоритма требует меньше вычислительного времени).

Дополнительные сведения о методах уменьшения размерности см. В следующих статьях:

Выбор характеристик и уменьшение размерности с помощью графика ковариационной матрицы

Машинное обучение: снижение размерности с помощью анализа главных компонентов

Использование методов уменьшения размерности для удаления ненужных корреляций между функциями может помочь улучшить качество и прогнозную мощность вашей модели машинного обучения.

3. Масштабируйте свои данные

Масштабирование ваших функций поможет улучшить качество и предсказательную силу вашей модели. Например, предположим, что вы хотите построить модель для прогнозирования кредитоспособности на основе дохода и кредитного рейтинга. Поскольку кредитные рейтинги варьируются от 0 до 850, а доход может варьироваться от 25 000 до 500 000 долларов США, без масштабирования ваших функций модель будет смещена в сторону характеристики дохода. Это означает, что вес, связанный с параметром доход, будет очень маленьким, что приведет к тому, что прогнозная модель будет прогнозировать кредитоспособность только на основе дохода параметр.

Чтобы привести функции к одному и тому же масштабу, мы могли бы решить использовать либо нормализацию, либо стандартизацию функций. Чаще всего мы предполагаем, что данные распространяются нормально и по умолчанию в направлении стандартизации, но это не всегда так. Важно, чтобы перед тем, как решить, использовать ли стандартизацию или нормализацию, вы сначала посмотрите, как распределяются ваши функции. Если функция имеет тенденцию к равномерному распределению, мы можем использовать нормализацию (MinMaxScale r). Если функция приблизительно гауссова, то мы можем использовать стандартизацию (StandardScaler). Опять же, обратите внимание, что независимо от того, используете ли вы нормализацию или стандартизацию, это также приблизительные методы и обязательно вносят вклад в общую ошибку модели.

4. Настройте гиперпараметры в своей модели.

Использование неправильных значений гиперпараметров в вашей модели может привести к неоптимальной и низкокачественной модели. Важно, чтобы вы обучили свою модель всем гиперпараметрам, чтобы определить модель с оптимальной производительностью. Хороший пример того, как предсказательная сила модели зависит от гиперпараметров, можно найти на рисунке ниже (источник: Плохой и хороший регрессионный анализ).

Имейте в виду, что использование гиперпараметров по умолчанию не всегда приводит к оптимальной модели. Дополнительные сведения о гиперпараметрах см. В этой статье: Параметры модели и гиперпараметры в машинном обучении - в чем разница.

5. Определите количество случайных ошибок.

Каждой модели машинного обучения присуща случайная ошибка. Эта ошибка возникает из-за неотъемлемой случайной природы набора данных и из-за случайного характера, в котором набор данных разбивается на наборы для обучения и тестирования во время построения модели. Важно всегда количественно определять, как случайная ошибка влияет на предсказательную силу вашей модели. Это поможет повысить надежность и качество вашей модели. Дополнительные сведения о количественном анализе случайных ошибок см. В следующей статье: Количественное определение случайных ошибок в машинном обучении.

6. Сравните разные алгоритмы.

Перед выбором окончательной модели важно сравнить предсказательную силу нескольких различных алгоритмов. Например, если вы строите модель классификации, вы можете попробовать следующие алгоритмы:

  • Классификатор логистической регрессии
  • Машины опорных векторов (SVM)
  • Классификатор дерева решений
  • Классификатор K-ближайшего соседа
  • Наивный байесовский классификатор

Если вы строите модель линейной регрессии, вы можете сравнить следующие алгоритмы:

  • Линейная регрессия
  • Регрессия K-соседей (KNR)
  • Опорная векторная регрессия (SVR)

Дополнительные сведения о сравнении различных алгоритмов см. В следующих статьях:

Сравнительное исследование линейной регрессии и регрессии KNN

Учебник по процессу машинного обучения

III. Резюме и заключение

Таким образом, мы обсудили шесть важных факторов, которые могут повлиять на качество или предсказательную способность модели машинного обучения. Полезно всегда следить за тем, чтобы ваша модель была оптимальной и высочайшего качества.

Дополнительные ресурсы по науке о данных / машинному обучению

Сколько математики мне нужно в науке о данных?

Учебная программа по науке о данных

5 лучших степеней для входа в науку о данных

Теоретические основы науки о данных - мне нужно заботиться или просто сосредоточиться на практических навыках?

Планирование проекта машинного обучения

Как организовать свой проект по науке о данных

Инструменты повышения производительности для крупномасштабных проектов в области науки о данных

Портфолио Data Science более ценно, чем резюме

С вопросами и запросами пишите мне: [email protected]