API обнаружения объектов Tensorflow-GPU зависает после первой сохраненной контрольной точки

Я пытаюсь обучить мобильную сеть SSD v2 с помощью API обнаружения объектов Tensorflow с графическим процессором Tensorflow. Обучение проходит хорошо и быстро до первого сохранения контрольной точки (после нескольких сотен шагов), где оно застревает после восстановления последней контрольной точки. Использование графического процессора снижается и никогда не увеличивается. Иногда сам Python дает сбой.

Я использую графический процессор Tensorflow в Windows 7 с NVIDIA Quadro M4000 с CUDA 8.0 (единственная версия, с которой мне удалось работать). Модель представляет собой SSD Mobilenet v2, предварительно обученный COCO, с очень маленьким размером пакета - 4.

Конфигурационный файл такой же, как и в Tensorflow Model ZOO, конечно, изменяя пути, размер пакета, количество классов и количество шагов и добавляя shuffle: true в обучающую часть.

Я добавляю терминальную информацию, которая выходит. Вот где он застревает.

Сталкивался ли кто-нибудь с подобной проблемой или знает почему?

заранее спасибо

введите здесь описание изображения


person Gian Mauro Musso    schedule 29.05.2019    source источник
comment
Вы когда-нибудь догадывались об этом? У меня точно такая же проблема..   -  person Atle Kristiansen    schedule 09.07.2019
comment
@AtleKristiansen На самом деле я этого не делал. Я действительно работал, чтобы найти решение, но я этого не сделал. В основном проблема в том, что model_main.py восстанавливает параметры каждый раз, когда сохраняется контрольная точка, и здесь, когда обучение застревает. Единственное решение, которое я нашел, - это использовать устаревшие скрипты train.py и eval.py в устаревшей папке Object Detection API: train.py не восстанавливается из сохраненной контрольной точки каждый раз.   -  person Gian Mauro Musso    schedule 10.07.2019
comment
да, я тоже так подумал. Model_main.py не работает, что я считаю довольно странным (что не все это заявляют). Возможно, вам стоит добавить здесь свое решение этой проблемы, чтобы кому-то было проще найти способ решения проблемы.   -  person Atle Kristiansen    schedule 11.07.2019
comment
Я просто столкнулся с аналогичной проблемой, и использование train.py сработало. спасибо.   -  person ARK4579    schedule 06.04.2020


Ответы (1)


Я столкнулся с той же проблемой, что и вы. Долго ждал и нашел кое-что интересное. Получил некоторые результаты оценки. После этого тренировочный процесс продолжился. Кажется, что процесс оценки занимает слишком много времени. Поскольку вначале он не выводит ничего, это похоже на застревание. Возможно, изменение параметра sample_1_of_n_eval_examples поможет. Я стараюсь...

person Yunzhe Zou    schedule 04.09.2019
comment
Спасибо за ваш комментарий! Сообщите нам, если найдете что-то интересное. В любом случае, я думаю, что изменил этот параметр, но, если я правильно помню, это не привело к чему-то полезному. - person Gian Mauro Musso; 05.09.2019