Авторы: Эрик Уоллес, Ши Фэн, Джордан Бойд-Грабер.



Они обсуждают ряд ограничений для интерпретаций, основанных на значимости. В частности, достоверность нейронной сети может быть неоправданно высокой, даже если входные данные лишены какой-либо прогностической информации. Следовательно, при удалении объектов с помощью такого метода, как «Оставить один», изменение достоверности может не отражать должным образом, были ли удалены «важные» входные объекты. Следовательно, методы интерпретации, основанные на достоверности, могут не сработать из-за проблем в базовой модели.

Они решают эту проблему, изменяя поведение нейронных сетей во время тестирования с помощью глубоких k-ближайших соседей, что обеспечивает более надежную метрику неопределенности: соответствие без ущерба для точности классификации. Они используют метрику соответствия для генерации значений важности функций.

Они считают, что полученные интерпретации лучше соответствуют человеческому восприятию, чем базовые методы: исключение одного и атрибуция признаков на основе градиента. Они также используют свой метод интерпретации для анализа прогнозов модели на артефактах аннотаций набора данных SNLI.

Использованная литература:

https://arxiv.org/abs/1809.02847
https://sites.google.com/view/language-dknn/
https://zerobatchsize.net/2018/ 11/09/dknn.html
https://github.com/Eric-Wallace/deep-knn