Оценка алгоритмов глубокого обучения или машинного обучения является важной частью исследовательской работы. Мы можем получить удовлетворительные результаты, используя, скажем, показатель точности (вероятностный домен), но можем плохо работать в метрике оценки среднеквадратичной ошибки (RMSE). Здесь мы собираемся использовать модель глубокого обучения для обнаружения опухолей в качестве эталона для оценки наших показателей оценки. Существует несколько моделей глубокой сегментации сети, а именно URsD, UIncp, UVgg и URsEn, которые используются после предварительной обработки биомедицинских сканов или наборов данных изображений. Наконец, результаты сегментации оцениваются для учета сходства между фактическим выходом и прогнозируемым значением с помощью коэффициента показателей эффективности.

Как правило, мы используем наши тестовые данные для классификации входных данных и оценки относительно значений истинности. В этом документе рассматривается ряд оценочных показателей: Точность, F-оценка, Коэффициент игры в кости, Пересечение по союзу. (IoU или индекс Жаккара), Среднеквадратическая ошибка (RMSE), Модифицированное расстояние Хаусдорфа (MHD), Абсолютная разница объемов strong> (AVD), чтобы оценить точность модели глубокого обучения и, наконец, сравнить результаты показателей производительности и анализа чувствительности, чтобы подтвердить полезность этих показателей в конкретных случаях с учетом размера доступных наборов биомедицинских данных. На самом деле, мы можем разработать больше показателей оценки на основе нашего анализа выходных результатов. Что наиболее важно, развертывание ряда показателей оценки действительно помогает оптимизировать нашу модель для эффективной работы в любых условиях.

Точность против F-показателя

Точность очень легко интерпретировать, но когда существует более высокая стоимость, связанная с определенным типом ошибки, а данные распределены неравномерно, F-показатель является более точным в реальных приложениях. . Что касается модели глубокого обучения при обнаружении роста опухоли, то весовые коэффициенты точность и отзыв будут отличаться, поскольку точность имеет большее значение. здесь F-оценка лучше, чем Точность.

IoU против F-оценки

Согласно определению, IoU и F-score положительно коррелируют с коэффициентом 2. Это означает, что если классификатор A лучше, чем классификатор B в соответствии с IoU, то A также должен быть лучше B по F-оценке. Разница возникает при измерении того, насколько классификатор хуже другого. Если прогноз неверен, метрика IoU наказывает отдельные экземпляры больше, чем F-оценка в количественном выражении. F-оценка имеет тенденцию измерять что-то близкое к средней эффективности, в то время как оценка IoU измеряет что-то ближе к наихудшей производительности.

Для сегментации изображений биомедицинских изображений или сканов, скажем, у нас есть один пиксель обнаруживаемого класса, и наш классификатор обнаруживает данный пиксель и еще один, F-оценка будет 2/3 и IoU будет равно 1/2 с учетом ошибки каждого пикселя. Для набора изображений средний балл может серьезно пострадать, если мы примем во внимание каждую ошибку пикселя. F-score кажется лучшим инструментом при работе с несколькими сегментированными изображениями, где точность имеет большое значение.

По сравнению с другими метриками среднеквадратичная ошибка не является масштабно-инвариантной метрикой, ее значение зависит от масштаба данных. Таким образом, в случае большого количества наборов данных RMSE выделяется как более эффективный показатель для оценки модели глубокого обучения.

Что касается оценки результатов сегментации изображений биомедицинских сканов опухоли, есть еще две метрики — MHD и AVD.

МГД, безусловно, является важным инструментом, поскольку он использует точечные положения разных слоев изображений и демонстрирует высокую эффективность при сравнении сходства между двумя изображениями. В случаях, когда у нас меньше обучающих данных, точная оценка набора данных изображений помогает обучать модель с повышенной точностью. В то время как AVD зависит от объема наборов данных и его будет рационально использовать при наличии больших вариаций наборов данных.

~Ашутош Кумар