Я пытаюсь обучить мобильную сеть SSD v2 с помощью API обнаружения объектов Tensorflow с графическим процессором Tensorflow. Обучение проходит хорошо и быстро до первого сохранения контрольной точки (после нескольких сотен шагов), где оно застревает после восстановления последней контрольной точки. Использование графического процессора снижается и никогда не увеличивается. Иногда сам Python дает сбой.
Я использую графический процессор Tensorflow в Windows 7 с NVIDIA Quadro M4000 с CUDA 8.0 (единственная версия, с которой мне удалось работать). Модель представляет собой SSD Mobilenet v2, предварительно обученный COCO, с очень маленьким размером пакета - 4.
Конфигурационный файл такой же, как и в Tensorflow Model ZOO, конечно, изменяя пути, размер пакета, количество классов и количество шагов и добавляя shuffle: true в обучающую часть.
Я добавляю терминальную информацию, которая выходит. Вот где он застревает.
Сталкивался ли кто-нибудь с подобной проблемой или знает почему?
заранее спасибо