CNTK: сбой cuDNN 7: CUDNN_STATUS_MAPPING_ERROR

Я пытаюсь создать простую свертку из изображения 224 * 244 * 3 до тензора 56 * 56 * 3, который я хочу сравнить с другим изображением.

Для этого я создаю составной ридер

scale = ImageDeserializer.scale(width=224,
                                height=224,
                                channels=3,
                                scale_mode="pad",
                                pad_value=114,
                                interpolations='linear')
scale2 = ImageDeserializer.scale(width=56,
                                 height=56,
                                 channels=3,
                                 scale_mode="pad",
                                 pad_value=114,
                                 interpolations='linear')
image_source = ImageDeserializer(os.path.join(path, "images_map.txt"))
image_source.ignore_labels()
image_source.map_features('features', [scale])

mask_source = ImageDeserializer(os.path.join(path, "images_mask_map.txt"))
mask_source.ignore_labels()
mask_source.map_features('mask', [scale2])

return MinibatchSource([image_source, mask_source])

и с этим читателем создайте входную карту

input_map = {
    input_var: reader_train["features"],
    input_var_mask: reader_train["mask"]
}

снн выглядит так

conv1 = cntk.layers.Convolution((5, 5), filterdims[0], pad=True, activation=cntk.ops.relu)(input_var)
maxpool1 = cntk.layers.MaxPooling((2, 2), (2, 2))(conv1)
conv2 = cntk.layers.Convolution((4, 4), filterdims[1], pad=True, activation=cntk.ops.relu)(maxpool1)
maxpool2 = cntk.layers.MaxPooling((2, 2), (2, 2))(conv2)
conv3 = cntk.layers.Convolution((4, 4), 3, pad=True, activation=cntk.ops.relu)(maxpool2)
return conv3 # shape is (3, 56, 56) conv3 = z in the error equation

с входами

input_var = cntk.ops.input_variable((3, 224, 224), np.float32)
input_var_mask = cntk.ops.input_variable((3, 56, 56), np.float32)

и функция ошибки

f2 = cntk.ops.element_times(cntk.ops.constant(0.00390625), input_var_mask, name="f2")
err = cntk.ops.reshape(cntk.ops.minus(z, f2), (56 * 56 * 3))
sq_err = cntk.ops.element_times(err, err)
mse = cntk.ops.reduce_mean(sq_err)
rmse_loss = cntk.ops.sqrt(mse)
rmse_eval = cntk.ops.sqrt(mse)

Когда я тренируюсь, чтобы тренироваться, все работает нормально, пока

 data = reader_train.next_minibatch(min(minibatch_size, epoch_size - sample_count), input_map=input_map)  # fetch minibatch.
 trainer.train_minibatch(data)  # Error as in title 

где я получаю

cuDNN failure 7: CUDNN_STATUS_MAPPING_ERROR ; GPU=0 ; hostname=STEPHENPC
train_minibatch_overload_for_minibatchdata

return _cntk_py.Trainer_train_minibatch_overload_for_minibatchdata(self, *args)
RuntimeError: cuDNN failure 7: CUDNN_STATUS_MAPPING_ERROR ; GPU=0 ;      hostname=STEPHENPC ; expr=err

cudaStreamDestroy failed (PrefetchGPUDataTransferer dtor): an illegal  memory access was encountered (cuda error 77)

Может ли кто-нибудь помочь мне и сказать мне причину ошибки?

заранее спасибо


person Stephen Ahmad    schedule 02.03.2017    source источник
comment
Вы используете (или имеете) несколько графических процессоров?   -  person Nikos Karampatziakis    schedule 11.04.2017
comment
Мы также получили всевозможные странные ошибки TensortRT (например, CUDNN_STATUS_MAPPING_ERROR). Они исчезли при использовании только одного потока ЦП. В документации cuDNN упоминается что-то подобное.   -  person gast128    schedule 02.03.2020


Ответы (1)


Согласно другим проектам, которые столкнулись с этой проблемой (см., например, здесь), это может указать на ошибку в библиотеке cudnn. CNTK не использует память текстур, поэтому лучше сообщить об этой проблеме в NVidia.

person Nikos Karampatziakis    schedule 11.04.2017