Проверка не удалась: ошибка == cudaSuccess (74 против 0) неверный адрес

У меня есть два набора данных и обучение с использованием библиотеки caffe для CNN.

Первый набор данных содержит много обучающих данных: более 60 000 изображений поездов и 16 000 тестовых изображений. Его файл решателя можно увидеть следующим образом. Размер партии установлен на 32 в обучении.

train_net: "/home/Softwares/Projects/caffe-ssd-2/NumberPlate/InceptionNet/6/train_0.prototxt"
test_net: "/home/Softwares/Projects/caffe-ssd-2/NumberPlate/InceptionNet/6/test_0.prototxt"
test_iter: 2080
test_interval: 4000
base_lr: 0.0010000000475
display: 10
max_iter: 16000
lr_policy: "multistep"
gamma: 0.10000000149
momentum: 0.899999976158
weight_decay: 0.000500000023749
snapshot: 2000
snapshot_prefix: "/home/Softwares/Projects/caffe-ssd-2/NumberPlate/InceptionNet/6/InceptionNet"
solver_mode: GPU
device_id: 0
debug_info: false
snapshot_after_train: true
test_initialization: false
average_loss: 10
stepvalue: 4000
stepvalue: 8000
stepvalue: 12000
iter_size: 1
momentum2: 0.999000012875
type: "Adam"
eval_type: "detection"
ap_version: "11point"
num_total_train_images: 62308
pathtolog: "/home/Softwares/Projects/caffe-ssd-2/NumberPlate/InceptionNet/6"
batchsize: 32
meanprecision: 0.5
scratch: 1

У меня есть второй набор данных с меньшим количеством изображений поездов. Только 2883 изображения поезда и 709 тестовых изображений, а размер пакета для обучения установлен равным 16, как показано ниже.

train_net: "/home /Softwares/Projects/caffe-ssd-2/Nextan/InceptionNet/0/train_0.prototxt"
test_net: "/home/Softwares/Projects/caffe-ssd-2/Nextan/InceptionNet/0/test_0.prototxt"
test_iter: 177
test_interval: 500
base_lr: 0.0010000000475
display: 10
max_iter: 8000
lr_policy: "multistep"
gamma: 0.10000000149
momentum: 0.899999976158
weight_decay: 0.000500000023749
snapshot: 1000
snapshot_prefix: "/home/Softwares/Projects/caffe-ssd-2/Nextan/InceptionNet/0/InceptionNet"
solver_mode: GPU
device_id: 0
debug_info: false
snapshot_after_train: true
test_initialization: false
average_loss: 10
stepvalue: 2000
stepvalue: 4000
stepvalue: 6000
iter_size: 1
momentum2: 0.999000012875
type: "Adam"
eval_type: "detection"
ap_version: "11point"
num_total_train_images: 2883
pathtolog: "/home/Softwares/Projects/caffe-ssd-2/Nextan/InceptionNet/0"
batchsize: 16
meanprecision: 0.5
scratch: 1

Я тренировался на том же ПК с тем же графическим процессором и ресурсами. Второй набор данных дал мне "Check failed: error == cudaSuccess (74 vs. 0) misaligned address" Но первый набор данных успешно обучен. Что может быть не так?


person batuman    schedule 30.10.2018    source источник
comment
Вероятно, это какая-то внутренняя ошибка в caffe.   -  person talonmies    schedule 30.10.2018
comment
Я также напишу на форум кафе. Спасибо   -  person batuman    schedule 30.10.2018
comment
@talonmies Я скопировал всю папку на другой сервер, и она отлично работает.   -  person batuman    schedule 30.10.2018


Ответы (1)


Это внутренняя ошибка в Caffe из-за того, что в некоторых ситуациях max_workspace не кратно 16, из-за чего workspace не выравнивается в памяти. Первое, что я бы попробовал, это изменить размер пакета.

Здесь вы можете увидеть запрос на вытягивание с проблемой: https://github.com/BVLC/caffe/pull/6548

person ailun0x0e    schedule 13.06.2019
comment
ты решил эту проблему? изменение cudnn_conv.cpp не помогает. - person Khan; 06.01.2020
comment
Вы пытались выровнять адрес так, чтобы он был кратным 32? size_t m=32; max_workspace = (max_workspace + m-1) / m * m; //align address to be multiples of m - person ailun0x0e; 04.02.2020