API обнаружения объектов Tensorflow-GPU зависает после первой сохраненной контрольной точки

Я пытаюсь обучить мобильную сеть SSD v2 с помощью API обнаружения объектов Tensorflow с графическим процессором Tensorflow. Обучение проходит хорошо и быстро до первого сохранения контрольной точки (после нескольких сотен шагов), где оно застревает после восстановления последней контрольной точки. Использование графического процессора снижается и никогда не увеличивается. Иногда сам Python дает сбой.

Я использую графический процессор Tensorflow в Windows 7 с NVIDIA Quadro M4000 с CUDA 8.0 (единственная версия, с которой мне удалось работать). Модель представляет собой SSD Mobilenet v2, предварительно обученный COCO, с очень маленьким размером пакета - 4.

Конфигурационный файл такой же, как и в Tensorflow Model ZOO, конечно, изменяя пути, размер пакета, количество классов и количество шагов и добавляя shuffle: true в обучающую часть.

Я добавляю терминальную информацию, которая выходит. Вот где он застревает.

Сталкивался ли кто-нибудь с подобной проблемой или знает почему?

заранее спасибо

Gian Mauro Musso 29.05.2019 источник

comment

Вы когда-нибудь догадывались об этом? У меня точно такая же проблема.. - Atle Kristiansen 09.07.2019

comment

@AtleKristiansen На самом деле я этого не делал. Я действительно работал, чтобы найти решение, но я этого не сделал. В основном проблема в том, что model_main.py восстанавливает параметры каждый раз, когда сохраняется контрольная точка, и здесь, когда обучение застревает. Единственное решение, которое я нашел, - это использовать устаревшие скрипты train.py и eval.py в устаревшей папке Object Detection API: train.py не восстанавливается из сохраненной контрольной точки каждый раз. - Gian Mauro Musso 10.07.2019

comment

да, я тоже так подумал. Model_main.py не работает, что я считаю довольно странным (что не все это заявляют). Возможно, вам стоит добавить здесь свое решение этой проблемы, чтобы кому-то было проще найти способ решения проблемы. - Atle Kristiansen 11.07.2019

comment

Я просто столкнулся с аналогичной проблемой, и использование train.py сработало. спасибо. - ARK4579 06.04.2020

Ответы (1)

arrow_upward
1
arrow_downward

Я столкнулся с той же проблемой, что и вы. Долго ждал и нашел кое-что интересное. Получил некоторые результаты оценки. После этого тренировочный процесс продолжился. Кажется, что процесс оценки занимает слишком много времени. Поскольку вначале он не выводит ничего, это похоже на застревание. Возможно, изменение параметра sample_1_of_n_eval_examples поможет. Я стараюсь...

Yunzhe Zou 04.09.2019

comment

Спасибо за ваш комментарий! Сообщите нам, если найдете что-то интересное. В любом случае, я думаю, что изменил этот параметр, но, если я правильно помню, это не привело к чему-то полезному. - Gian Mauro Musso; 05.09.2019

API обнаружения объектов Tensorflow-GPU зависает после первой сохраненной контрольной точки

Ответы (1)

Вопросы по теме