Я уверен, что при написании этого блога мне следовало начать с основ машинного обучения, таких как обсуждение контролируемых и неконтролируемых моделей или наборов данных для обучения и тестирования в машинном обучении, но я чувствую, что это много раз обсуждалось в этой области, и все пытался использовать доступные помеченные наборы данных для создания контролируемых моделей машинного обучения или немаркированные данные для поиска кластеров в данных и ассоциации.

В этой статье я
расскажу о последнем, но наиболее важном шаге при работе с моделями машинного
обучения. Это то, как вы определяете точность моделей машинного обучения
после того, как внедрили модель. Это очень важно, потому что, если
точность модели очень низкая, вы многое упустили при подгонке
модели к имеющемуся у вас набору данных. В основном это недообучение, которое
возникает по двум основным причинам.

  • Модель не соответствует предоставленному набору данных
    , поскольку в наборе данных не обнаружена тенденция.
  • Подгонка модели к неправильным данным, т. е.
    подгонка линейной модели к нелинейному набору данных.

Еще одна серьезная ситуация,
влияющая на точность модели, — это переобучение набора данных для обучения.
Это в основном вызвано тем, что в наборе данных слишком много независимых переменных, и
модель пытается включить каждую переменную.

Когда вы внедряете
модель, очень важно определить точность, прежде чем рекомендовать модель для
использования в рабочей среде. Ниже приведены некоторые показатели, которые можно использовать,
применительно к машинному обучению. Я объясню все метрики на языке непрофессионала
и расскажу, где в основном вы можете их использовать, в серии статей. В этой
статье основное внимание будет уделено MAE.

  • Средняя абсолютная ошибка
  • Средняя абсолютная ошибка в процентах
  • Среднеквадратическая ошибка
  • R в квадрате
  • Матрица путаницы

Как следует из названия, метрика
в основном ориентирована на ошибки. Это означает разницу между фактическим
наблюдением и предсказанным наблюдением. MAE в основном используется для оценки
регрессионных моделей, таких как линейные модели. В основном все наблюдения представлены в
непрерывной форме. Чтобы реализовать это на любом языке, следует логике ниже
в порядке шагов.

  • Получение ошибки, Ошибка = фактическое наблюдение — предсказанное наблюдение
  • Когда вы получите все ошибки, вы поймете
    , что одни ошибки положительные, а другие отрицательные.
  • Получение Абсолютной ошибки = |Error|
  • На этом шаге игнорируется знак перед ошибкой
    . Обработка наблюдаемых положительных и отрицательных ошибок как абсолютных
  • Получение среднего (среднего) абсолютных ошибок
  • Это включает в себя добавление всех ошибок и деление
    на общее количество наблюдений.

Дом
описание Прогноз
стоимость дома с использованием линейной модели Фактическая
стоимость дома Расчет
ошибки (Фактическая-Прогноз) Абсолютная
Ошибка 2
спальня, 2 санузла, кухня и балкон $18700 $20000 +1300 1300 3-комната,
кухня, 2 ванны, химчистка, газовая плита $43200 $40000 -3200 3200 3-комната,
кухня, 3 ванны, $27800 30000 $ +2200 2200 4
спальни, 2 ванные, посудомоечная машина, химчистка, кухня, химчистка $63200 $58000 -5200 5200 2-комнатная,
химчистка, электрическая плита, посудомоечная машина $22400 $25000 +2600 2600

Получение среднего значения
абсолютных ошибок:

1300 +3200+2200+5200+2600
= 14500

14500/5 = 2900

  • Результат может варьироваться от 0 до бесконечности
  • На результат MAE не влияет
    направление ошибок, поскольку мы используем абсолютные ошибки.
  • Чем ниже результат, тем лучше
  • MAE в размере 2900 долларов США – это наша мера
    качества нашей модели. Это означает, что в среднем прогнозы нашей модели
    не соответствуют приблизительно 2900 долларов США.

Поскольку MAE заботится
обо всех ошибках в прогнозируемых значениях, он присваивает всем ошибкам одинаковый
вес (маленькие и большие ошибки). Это означает, что пропустить правильный прогноз на 5
так же плохо, как пропустить правильный прогноз на 1. Если пропустить правильный прогноз на 5
намного хуже, чем пропустить на 1, рассмотрите возможность использования MAPE, поскольку он учитывает
масса ошибок. (будет рассмотрено в следующей статье).

MAE лучше всего использовать в
сценариях, когда величина каждой ошибки не важна.

Указать
на примечание:

В случае, если кто-то избегает
второго этапа получения абсолютного значения и использует необработанные ошибки для расчета
среднего значения, результат описывается как средняя
ошибка смещения.
Он измеряет среднее смещение в самой модели. Это означает,
насколько наша модель предвзята по сравнению с фактическими прогнозами. Иногда это может
дать странный результат, так как в большинстве случаев положительные и отрицательные стороны
сокращаются. Следует быть осторожным при интерпретации результатов.

Первоначально опубликовано на сайте blog.heptanalytics.com 1 января 2019 г.