Публикации по теме 'gpgpu'


Программирование на нескольких GPU с помощью CUDA
В серии графических процессоров RTX появилась возможность использовать высокоскоростное соединение между графическими процессорами NVLink в пользовательском сегменте. С тех пор, как я увидел эту новость, я не мог не думать о том, чтобы ее получить. У меня было слишком много вопросов о некоторых функциях и производительности этой технологии. Можно ли использовать удаленные атомарные операции? Где кэшируются удаленные доступы? Как должно выглядеть общение через NVLink, если между..

Портирование Smallpt с помощью Visionaray
Smallpt — это средство визуализации с трассировкой пути, написанное Кевином Бисоном в 99 строках C++. Давайте переделаем smallpt, используя Библиотеку шаблонов трассировки лучей Visionaray . Мы будем использовать встроенное ядро ​​простой трассировки пути Visionaray для рендеринга глобального освещения. Наша реализация будет кроссплатформенной и может работать как на графических процессорах NVIDIA, так и на процессорах. Поскольку Visionaray является библиотекой шаблонов, легко..

Вопросы по теме 'gpgpu'

Библиотека OpenCL FFT для графических процессоров?
Доступна ли какая-либо общая библиотека FFT для работы на графическом процессоре с использованием OpenCL? Насколько мне известно, пример кода Apple для OpenCL FFT по принципу степени двойки - единственный доступный такой код? Существует ли такая...
6175 просмотров
schedule 03.07.2023

NVIDIA против AMD: производительность GPGPU
Я хотел бы услышать мнение людей, имеющих опыт программирования для обоих. Лично у меня только опыт работы с NVIDIA. NVIDIA CUDA кажется намного более популярной, чем у конкурентов. (Просто посчитав вопросительные теги на этом форуме, 'cuda'...
47456 просмотров
schedule 02.06.2022

Какие настоящие языковые конструкции C++ поддерживаются кодом устройства CUDA?
Приложение D версии 3.2 документации CUDA относится к поддержке C++ в коде устройства CUDA. Четко указано, что CUDA поддерживает «классы для устройств с вычислительными возможностями 2.x». Однако я работаю с устройствами с вычислительными...
4746 просмотров
schedule 27.07.2022

Функция отрисовки графического процессора OpenGL 4.0?
В описании OpenGL 4.0 из Википедии и других источников я читал об этой функции: Рисование данных, сгенерированных OpenGL или внешними API, такими как OpenCL, без вмешательства ЦП. К чему это относится? Изменить : Похоже, это должно...
966 просмотров

PyCUDA: запрос статуса устройства (в частности, памяти)
В документации PyCUDA мимоходом упоминаются вызовы интерфейса драйвера , но я немного подумал и могу не вижу, как получить такую ​​информацию, как «SHARED_SIZE_BYTES», из моего кода. Может ли кто-нибудь указать мне какие-либо примеры запроса...
5837 просмотров
schedule 13.04.2023

OpenCL getDeviceInfo: как получить информацию о ядрах процессора?
С помощью getDeviceInfo OpenCL можно получить количество доступных вычислительных единиц (CL_DEVICE_MAX_COMPUTE_UNITS). На моем nVidia Geforce 8600GTS у меня есть 4 вычислительных блока с 8 ядрами на блок. С помощью...
2690 просмотров
schedule 13.10.2022

Ошибка компиляции Cuda — ожидаемое основное выражение
эта программа, кажется, в порядке, но я все еще получаю сообщение об ошибке, какое-то предложение? Программа: #include "dot.h" #include <cuda.h> #include <cuda_runtime.h> #include <stdio.h> int main(int argc, char** argv) {...
17606 просмотров
schedule 02.06.2022

Будет ли C++ AMP работать на машине без совместимого графического процессора?
Я понимаю, что C++ AMP ускоряется с помощью графических процессоров, поддерживающих DirectX 11. Однако мой вопрос заключается в следующем: что произойдет, если скомпилированная программа C++ AMP запустится на компьютере без графического процессора,...
1517 просмотров
schedule 27.08.2022

Как указать флаг компиляции в vs 2008, чтобы отключить кеш l1 в cuda
Цитирую из руководства по программированию: Доступ к глобальной памяти кэшируется. С помощью флага компиляции –dlcm их можно настроить во время компиляции для кэширования как в L1, так и в L2 (-Xptxas -dlcm=ca) (это настройка по умолчанию) или только...
978 просмотров
schedule 11.07.2023

Не могу скомпилировать программу CUDA
Я никогда раньше не программировал графические процессоры, но кто-то дал мне этот код CUDA для компиляции. Когда я попытался сделать это в VC ++ 2008 (CUDA toolkit 3.1), у меня возникла следующая ошибка связывания. LINK : fatal error LNK1181:...
536 просмотров
schedule 27.06.2022

Атомарные счетчики GLSL (и ветвление) во фрагментных шейдерах
Фрагментный шейдер использует два атомных счетчика. Он может увеличивать или не увеличивать первое и может увеличивать или не увеличивать второе (но не оба сразу). Однако перед таким изменением счетчиков всегда считываются их текущие значения и -...
1927 просмотров

Вычисление максимального количества одновременных рабочих групп
Мне было интересно, есть ли стандартный способ программно определить максимальное количество одновременных рабочих групп, которые могут работать на графическом процессоре. Например, на карте NVIDIA с 5 вычислительными блоками (или SM) может быть...
1786 просмотров
schedule 26.04.2022

Выборки из глобальной памяти OpenCL
Я подумываю о переработке ядра OpenCL графического процессора, чтобы ускорить процесс. Проблема в том, что существует большой объем глобальной памяти, которая не объединена, и выборка действительно снижает производительность. Итак, я планирую...
3310 просмотров
schedule 29.04.2024

Нампи, BLAS и CUBLAS
Numpy может быть «связан/скомпилирован» с различными реализациями BLAS (MKL, ACML, ATLAS, GotoBlas и т. д.). Это не всегда просто настроить, но это возможно. Можно ли также «связать/скомпилировать» numpy с реализацией NVIDIA CUBLAS? Я не смог...
12387 просмотров
schedule 04.12.2022

Как работать с NaN или inf в шейдерах OpenGL ES 2.0
Это основано на вопросе: Лучший способ обнаружения NaN в шейдерах OpenGL Стандартный GLSL определяет функции isnan() и isinf() для обнаружения. Язык затенения OpenGL ES 2.0 этого не делает. Как мне все же справиться с NaN и Infs?
3581 просмотров

Что лучше, атомная конкуренция между нитями одного варпа или нитями разных варпов?
Что лучше, атомарная конкуренция (конкурентность) между потоками одного варпа или между потоками разных варпов в одном блоке? Я думаю, что при доступе к разделяемой памяти лучше, когда потоки одного варпа конкурируют друг с другом меньше, чем потоки...
121 просмотров
schedule 11.06.2022

Ограничения загрузки рабочего элемента в GPU? CUDA/OpenCL
У меня есть алгоритм изображения с интенсивными вычислениями, который для каждого пикселя должен считывать много удаленных пикселей. Расстояние зависит от константы, определенной во время компиляции. Мой алгоритм OpenCL работает хорошо, но на...
2050 просмотров
schedule 27.07.2023

Точка останова графического процессора не срабатывает при использовании C++ AMP
Я установил тип отладчика GPU only и установил точку останова на каждой строке 8-строчного лямбда-выражения parallel_for_each , включая оператор строки parallel_for_each , но он никогда не срабатывает. Я использую Visual Studio 2012 в Windows 8...
489 просмотров
schedule 03.07.2022

Использование Open MPI и CUDA в Windows 7
Я пытаюсь запустить простую программу CUDA , которая запрашивает количество графических процессоров в узлах, используя Open MPI v1.6.1 (64-разрядная версия) в Windows 7 Professional 64. битовые машины. Когда я запускаю приложение в корневом...
1317 просмотров
schedule 12.04.2022

Почему glGetTexImage передает все текстуры MIP-карт, даже если запрашивается только уровень MIP-карты 1x1?
Я визуализирую текстуру с плавающей запятой в FBO и мне нужно среднее значение всех пикселей этой текстуры на ЦП. Поэтому я подумал, что использование мипмэппинга для вычисления среднего значения в мипмапе 1x1 довольно удобно, потому что я экономлю...
2045 просмотров
schedule 01.08.2022