BenchMetrics: «Насколько надежны показатели производительности бинарной классификации?»

Точность, F1 или TPR (также известная как полнота или чувствительность) – это хорошо известные и широко используемые показатели для оценки и сравнения эффективности классификации на основе машинного обучения.

Какой показатель производительности бинарной классификации является наиболее надежным?

Точность, F1, TPR или BACC (сбалансированная точность), CK (каппа Коэна), nMI (нормализованная взаимная информация) и MCC (коэффициент корреляции Мэтьюза)?

Уверены ли мы, что правильно оцениваем работу классификаторов? Являются ли все эти показатели надежными?

Мое последнее исследование по сравнительному анализу показателей производительности классификации (BenchMetrics) только что было опубликовано в SpringerNature в журнале Neural Computing and Applications (SCI, Q1).

Читать здесь: https://rdcu.be/cvT7d

Основные моменты

Метод бенчмаркинга предлагается для показателей производительности бинарной классификации.
Вводятся понятия метаметрики (метрика о метрике) и метрического пространства.
Метод (BenchMetrics) протестировал 13 доступных и два недавно предложенных показателя.
Критические проблемы выявляются в общих метриках, в то время как Центр клиентов является наиболее надежным.
Исследователи должны использовать MCC для оценки производительности, сравнения и составления отчетов.

Абстрактный

В этой статье предлагается систематический метод сравнительного анализа под названием BenchMetrics для анализа и сравнения надежности показателей производительности бинарной классификации на основе матрицы путаницы для четкого классификатора. BenchMetrics, представляющая новые концепции, такие как метаметрики (метрики о метриках) и метрическое пространство, была протестирована на пятнадцати хорошо известных метриках, включая сбалансированную точность, нормализованную взаимную информацию, каппа Коэна и коэффициент корреляции Мэтьюса (MCC), а также две недавно предложенные метрики, оптимизированная точность и индекс сбалансированной точности в литературе. Метод формально представляет собой псевдоуниверсальное метрическое пространство, в котором вычисляются все перестановки элементов матрицы смешения, дающие одинаковый размер выборки. Он оценивает метрики и метрические пространства в двухэтапном тесте на основе предложенных нами восемнадцати новых критериев и, наконец, ранжирует метрики путем агрегирования результатов критериев. На этапе математической оценки анализируются уравнения метрик, конкретные варианты матриц путаницы и соответствующие метрические пространства. Второй этап, включающий семь новых метаметрик, оценивает аспекты устойчивости метрических пространств. Мы интерпретировали каждый результат сравнительного анализа и сравнивали эффективность BenchMetrics с ограниченными сравнительными исследованиями в литературе. Результаты BenchMetrics показали, что широко используемые метрики имеют значительные проблемы с надежностью, а MCC является наиболее надежной и рекомендуемой метрикой для оценки производительности двоичной классификации.

🎗Важный вопрос для исследовательского сообщества

Выбранная метрика производительности является единственным инструментом для определения того, какой алгоритм машинного обучения является лучшим. Вот критический вопрос для исследовательского сообщества, которое хочет получить объективные результаты исследования для любой конкретной области проблемы классификации в литературе:

Вопрос. Если мы оценим производительность алгоритмов на основеMCC, изменятся ли сравнения и рейтинги?

Мой ответ: думаю, да. По крайней мере, мы должны попробовать и посмотреть.

Вопрос. Но как?

Мой ответ:

Во-первых, попробуйте и посмотрите BenchMetrics в действии без какого-либо программирования на онлайн-платформе Code Ocean.

Во-вторых, используйте Программное обеспечение BenchMetrics для сравнительного анализа показателей производительности с открытым исходным кодом (API) для своих пользовательских экспериментов

В-третьих, обратитесь к онлайн-разделам данные и материалы для получения дополнительной информации

Пожалуйста, поделитесь со мной результатами.

Цитата к статье:

Джанбек Г., Таская Темизель Т. и Сагироглу С. BenchMetrics: метод систематического сравнительного анализа показателей производительности бинарной классификации. Нейронные вычисления и приложения (2021). https://doi.org/10.1007/s00521-021-06103-6