Я отлаживаю модель последовательностей и намеренно пытаюсь идеально подогнать небольшой набор данных из ~ 200 образцов (пары предложений длиной от 5 до 50). Я использую отрицательную логарифмическую потерю правдоподобия в pytorch. Я получаю низкие потери (~ 1e ^ -5), но точность того же набора данных составляет всего 33%.
Я тренировал модель также на 3 образцах и получил 100% точность, но при обучении у меня были потери. У меня сложилось впечатление, что отрицательная логарифмическая вероятность дает потери (потери находятся в том же районе ~ 1e ^ -5), если есть несоответствие между прогнозируемой и целевой меткой?
Вероятна ли ошибка в моем коде?