Метрики в машинном обучении

В этом посте рассматривается машинное обучение, его различные подотрасли очень кратко, как введение, а затем углубляются в метрики. Важно быть осторожным при выборе и использовании или придумывании новых метрик, оценивающих, насколько хорошо работает подход ML.

Машинное обучение (МО)

ML — это изучение закономерностей в данных, а не явное программирование. Например, для следующего рисунка с помощью машинного обучения мы можем получить уравнение (модель), которое оценивает количество щебетов в минуту для соответствующей температуры. Помощь машинного обучения в поиске шаблонов в данных становится действительно заметной, когда количество измерений данных увеличивается, а проверить данные человеческим глазом и обнаружить шаблоны непросто.

Парадигмы обучения в ML подразделяются на следующие категории с кратким описанием каждой из них.

(1) под наблюдением: основными задачами в этом разделе являются классификация и регрессия. В случае классификации все обучающие данные помечены, а в случае регрессии все входные данные имеют соответствующее желаемое значение.

(2) неконтролируемый: данные не помечаются в этих методах, и цель состоит в том, чтобы найти структуру или выяснить, как данные связаны друг с другом. Имейте в виду, что в реальной жизни маркировка данных может стать очень дорогой (время, наем людей для маркировки данных!). Например, предположим, что у нас есть миллионы изображений разных животных, и они не помечены, и мы хотим их классифицировать.

(3) полу-контролируемый (слабый контролируемый): цель этого подхода — решить проблему ограниченного количества помеченных данных в обучении с учителем. Таким образом, он использует помеченные данные для обучения под наблюдением и использует большой объем немаркированных данных для дальнейшего повышения производительности за счет изучения структуры больших данных.

(4) обучение с подкреплением: этот подход основан на поощрении и наказании поведения учащегося (агента) в определенной среде.

Предварительная обработка данных — это этап после сбора данных, который представляет собой процесс понимания, очистки и преобразования данных для достижения лучшей цели обучения. Практики машинного обучения обычно пытаются понять данные, визуализируя их. Они стремятся, если возможно, обнаружить некоторые очевидные закономерности в данных. Они смотрят на центральные тенденции и меры формы и дисперсии. Они преобразуют данные, кодируют их в другом пространстве, уменьшают или дополняют данные. Данные, которые в конечном итоге загружаются в модели. Имейте в виду, что данные всегда преобразуются в формат тензоров.

В настоящее время искусственные нейронные сети (ANN), вдохновленные тем, как функционирует человеческий мозг, являются обычной практикой при решении задач, которые трудно было решить с помощью традиционных подходов, таких как задачи компьютерного зрения (например, Классификация изображений). Концепция ИНС была опробована ранее, но из-за ограниченной вычислительной мощности была ограничена и вынужденно отброшена. Но в наши дни они так популярны из-за больших объемов данных (называемых большими данными), гигантских современных графических процессоров, более эффективных алгоритмов и возможности упрощения разработки программного обеспечения благодаря очень высокоуровневым платформам, например, TensorFlow, PyTorch, Keras, Обнимающее лицо. Это называется глубоким обучением (DL), когда количество слоев нейронов увеличивается. Имейте в виду, что

ИИ (подражание человеческому поведению) › МО (подгонка модели под данные без явного программирования) › ГО (обучение шаблонам данных с помощью нейронных сетей)

На следующем рисунке показано, как моделируется нейрон.

Почему Метрика?

Когда мы строим что-то новое вообще, а особенно когда разрабатываем новый механизм для решения задачи, мы, наконец, хотим оценить его и показать другим людям его эффективность по сравнению с доступными методами. Таким образом, мы используем метрики, которые могут дать численное представление о том, насколько хорошо работает механизм по сравнению с тем, что у нас было. Кроме того, мы должны быть осторожны при использовании доступных показателей, определенных другими людьми. Мы должны убедиться, что метрика показывает то, что мы хотим, или все достоинства продукта. Мы увидим метрики для некоторых методов машинного обучения и поймем, как они разрабатываются и используются.

Метрики для алгоритма классификации (под наблюдением)

В задачах классификации (бинарная классификация, эта статья посвящена разъяснению важности метрик) цель состоит в том, чтобы определить, к какому классу принадлежит изображение. При оценке алгоритма классификации мы хотим показать число, отражающее, насколько хорошо этот классификатор выполняет свою работу. Например, мы хотим показать в среднем, сколько изображений правильно классифицируется в определенном количестве тестов.

Точность

Эта метрика показывает процент, который классификатор может правильно классифицировать. Он определяется следующим образом. Эта метрика не учитывает важность некоторых оценок, которые могут быть жизненно важны в некоторых приложениях. Мы проверим эти случаи в следующих метриках, которые учитывают эти случаи.

Частота ложноотрицательных результатов (FNR) или частота промахов/TPR, или частота попаданий, или отзыв

Чтобы понять эту метрику, сначала нам нужно понять концепции ложноположительного (FP), ложноотрицательного (FN), истинно положительного (TP) и истинно отрицательного (TN). True/False используется, когда оценка была правильной/неправильной. Положительно/Отрицательно используется, если результатом классификации было Да/Нет.

Метрику точности, которую мы рассмотрели ранее, можно переформулировать следующим образом:

Частота ложных срабатываний (FPR) — (коэффициент промаха) определяется следующим образом:

Как мы видим, это просто формула, говорящая, как разделить ложноотрицательный результат на сумму ложноотрицательного и истинно положительного. Но самое главное — понять логику, стоящую за этим. Как мы видим, другое название этой метрики — уровень промахов, показывающий, сколько мы теряем, предсказывая отрицание и избавляясь от чего-то, что может быть жизненно важным в некоторых приложениях. Давайте рассмотрим пример, чтобы понять это, предположим, что мы создаем систему на основе ML, которая на основе некоторых данных диагноза пациентов классифицирует их как нуждающихся в серьезном лечении и уходе или отправляет их домой. Ложь означает, что человеку не нужна помощь, он в порядке и должен уйти и отдохнуть. С другой стороны, True означает, что о человеке следует заботиться. В таких жизненно важных вопросах, если система принимает неверные решения, влекут за собой человеческие жизни или очень большие расходы. Итак, нам нужна метрика, показывающая, сколько пропускает система на основе ML (поэтому ее также называют коэффициент промаха). Мы хотели бы, чтобы процент промахов был ~нулем в жизненно важных сценариях. Еще одна метрика, дополняющая эту метрику, – истинно отрицательная частота (TNR,или показатель совпадений, или отзыв, или чувствительность). который определяется следующим образом:

В нашем примере мы хотим, чтобы показатель попаданий или отзыв был равен ~1 (очень высокий).

Истинно отрицательный показатель или селективность/ Ложноположительный показатель или выпадение

Селективность определяется следующим образом:

Чтобы понять это, давайте рассмотрим классификацию электронной почты спам/ветчина. True означает, что спам обнаружен. Спам-письма могут быть опасны и не должны попадать в почтовый ящик пользователя. Поэтому нам нужна высокая селективность (~1) в этом приложении. Fall-out является дополнительным показателем селективности.

Точность

Эта метрика дает нам представление о том, как правильно идентифицируется часть случаев, которые прогнозируются как истинные. Это правда, что у нас может быть хороший процент попаданий, но возможно, что метод говорит «да» каждому образцу, поэтому метод хорош для того, чтобы не пропустить и не потерять пациента, но может быть дорогостоящим для общества! и это показывает, что точность метода не заслуживает доверия. Точность имеет другое название, называемое PPV (положительное прогностическое значение).

Поскольку точность фокусируется на положительных прогнозах, другая метрика отрицательного прогнозного значения фокусируется на негативных прогнозах.

Отзывать

Помните, что отзыв — это частота попаданий. Прочитайте еще раз из метрик.

Этот тест от Google действительно помогает углубить понимание рассмотренных ранее показателей.

Классификация: проверьте свое понимание (точность, точность, полнота) | Машинное обучение | Google…
Расчетное время: 10 минут. Ознакомьтесь с вариантами ниже. В каком из следующих сценариев будет высокое значение точности…developers.google.com

F1-счет

Эта метрика сочетает в себе метрики отзыва и точности, которые показывают, насколько точно работает метод машинного обучения.

Хорошими значениями для оценки F1 можно считать следующие:

Метрики для регрессии

В задачах регрессии мы хотим оценить непрерывное значение переменной на основе набора функций, например, цена автомобиля на основе его характеристик, таких как максимальная скорость, марка, расход топлива на 100 км и т. д. В отличие от задачи классификации, мы используем метрики ошибок для регрессии, потому что в регрессии у нас нет набора классов. Здесь мы рассмотрим три наиболее распространенных из них. Но есть и другие метрики, реализованные в рамках Scikit-learn [связанные].

Среднеквадратическая ошибка (MSE)

Важно помнить, что MSE также является функцией потерь и используется алгоритмом оптимизации для поиска наилучшей модели для набора точек данных. он определяется следующим образом: прогнозируемое значение вычитается из фактического значения, затем увеличивается на два для каждой точки данных, затем вычисляется их среднее значение. Эта метрика, имеющая число ошибок, равное 2, наказывает модели за большие ошибки. Единицы — это единицы в квадрате.

Возникает вопрос, в каком диапазоне должна находиться метрика MSE, чтобы иметь представление об используемом нами механизме. Обычной практикой в регрессии является использование базовой модели и вычисление MSE для нее, затем вычисление MSE для следующих методов, сравнение с ними и выбор лучшего.

Среднеквадратичная ошибка (RMSE)

Единица в этом остается такой же, как и в наборе данных, но наказывается большими ошибками. При использовании этой метрики мы должны соблюдать те же правила, что и для MSE.

Средняя абсолютная ошибка (MAE)

Он использует ту же единицу измерения, что и набор данных, и не взвешивает ошибки.

Метрики для сегментации изображений

Сегментация изображения — это задача разделения изображения на несколько областей, которые действительно представляют собой наборы пикселей. Мы также можем рассматривать сегментацию изображения как маркировку пикселей. Существуют различные подходы к решению этой задачи. Здесь мы сосредоточимся на рассмотрении некоторых показателей этой области.

Точность пикселей и средняя точность пикселей

В следующих показателях Pii относится к количеству пикселей из класса i, которые правильно классифицированы как принадлежащие к классу i. С другой стороны, Pij относится к количеству пикселей из класса i, классифицированных как принадлежащие к классу j. K – количество целых классов (сегментов).

Когда метрика PA делится на целые классы (сегменты + фон), получается метрика MPA.

Для этих показателей значения ближе к 1 лучше. PA дает представление о том, насколько хорошо подход сегментации работает для определенного класса, а второй дает целостное представление обо всех классах по мере его усреднения.

Пересечение по союзу (IoU, индекс Жаккара) среднего пересечения по союзу (Mean-IoU)

Эта метрика показывает, насколько сильно совпадают предсказанные и наземные данные в задаче сегментации. Значения ближе к 1 считаются лучшей производительностью.

Узнайте больше об этом из следующего поста.

Пересечение по объединению (IoU) для обнаружения объектов — PyImageSearch
Узнайте, как применять метрику «Пересечение по объединению (включая код Python) для оценки пользовательских детекторов объектов. pyimagesearch.com»

Метрики для неконтролируемых

При неконтролируемом обучении мы фокусируемся на поиске структур в наборе данных, потому что набор данных не содержит никаких меток для точек данных. Например, мы сканируем Интернет и собираем миллиарды изображений на разные темы. Мы хотим сгруппировать их. Некоторыми показателями, используемыми в этих подходах, являются, например, расстояния Минковского, расстояние между кластерами Intra-Inter, которые по следующей ссылке связаны с дополнительной информацией о них.

https://machinelearningmastery.com/distance-measures-for-machine-learning/

МЛ | Межкластерное и внутрикластерное расстояние — GeeksforGeeks
Портал компьютерных наук для гиков. Он содержит хорошо написанные, хорошо продуманные и хорошо объясненные компьютерные науки и…www.geeksforgeeks.org

Заключение

В этой статье мы кратко рассмотрели ML, затем углубились в метрики как средство демонстрации производительности метода и рассмотрели некоторые метрики, чтобы лучше понять их.

Классификация: точность и полнота | Машинное обучение | Google для разработчиков
Приблизительное время: 9 минут Precision пытается ответить на следующий вопрос: какая доля положительных…developers.google.com

Сегментация изображений с помощью глубокого обучения: обзор
Сегментация изображений — ключевая задача компьютерного зрения и обработки изображений с такими важными приложениями, как сцена…ieeexplore.ieee. орг

https://machinelearningmastery.com/regression-metrics-for-machine-learning/