Почему инициализация графического процессора на архитектуре Kepler занимает очень много времени и как это исправить?

При запуске моего приложения самый первый cuda_malloc занимает 40 секунд, что связано с инициализацией графического процессора. Когда я строю в режиме отладки, это сокращается до 5 секунд, а когда я запускаю тот же код на устройстве Fermi, это занимает гораздо меньше секунды (в моем случае даже не стоит измерять).

Теперь самое смешное, что если я компилирую для этой конкретной архитектуры, используя флаг sm35 вместо sm20, он снова становится быстрым. Поскольку я пока не должен использовать какие-либо новые функции sm35, как я могу скомпилировать для sm20 и избежать такой огромной задержки? Также мне любопытно, что вызывает эту задержку? Машинный код перекомпилируется на лету в код sm35?

Пс. Я работаю в Windows, но мой коллега столкнулся с той же проблемой, вероятно, в Windows. Устройство Кеплер, версия драйвера 320.

initialization cuda kepler

ikku100 18.10.2013 источник

Ответы (1)

arrow_upward
4
arrow_downward

Да, машинный код перекомпилируется на лету. Это называется этапом JIT-компиляции и происходит каждый раз, когда машинный код не соответствует используемому устройству (и при условии, что в исполняемом файле существует допустимый код PTX).

Вы можете узнать больше о JIT-компиляции здесь. Обратите внимание на обсуждение кеша, который должен решить проблему после первого запуска.

Если вы укажете компиляцию как для sm_20, так и для sm_35, вы можете создать двоичный/исполняемый файл, который будет быстро работать на обоих типах устройств, а также вы получите уведомление, если используете функцию sm_35, которая не поддерживается на sm_20 (во время компиляции). процесс).

Robert Crovella 18.10.2013

Вопросы по теме

Сбой междоменного HTTP-запроса в AngularJS
не могу создать каталог с помощью mkdir
Почему в моем запросе не работает функция Neo4j None?
несколько растровых изображений против рисунков - влияние на производительность и память
удаление элемента в конкретном связанном списке
MongoDB: последняя запись для каждой категории по метке времени
Невероятно, но порядок просмотра раскадровки не соблюдается для представлений контейнера, исправить?
Django REST Как правильно хешировать пароль
Передача NSString между классами
Ошибка Ajax: код ответа 200
Приложение WinRT зависает при вызове BitmapDecoder.CreateAsync(stream)
Ошибка в поле выбора OpenERP версии 7
установить паруса вручную на сервер ubuntu
подстановочный знак classpath в @PropertySource
Получить и удержать вызов в twilio
Столбец автозаполнения на основе данных другого столбца
Фильтрация в пандах: исключение строк, содержащих часть строки [дубликаты]
Получить значения заголовков в ASP.NET MVC
Почему опечатка в объявлении функции Haskell приводит к тому, что GHCi выдает ошибки вокруг ранее скомпилированного кода?
как перепривязать сетку данных Silverlight