Я использую TensorFlow 1.2 с набором данных в файле TFRecord 20G. В этом файле TFRecord около полумиллиона сэмплов.
Похоже, если я выберу значение меньше, чем количество записей в наборе данных для buffer_size
, будут использоваться только первые N записей в TFRecord. https://www.tensorflow.org/api_docs/python/tf/contrib/data/Dataset#shuffle
Например, если buffer_size = 100
, кажется, что используются только первые 100 записей.
Вопрос
Должен ли buffer_size
всегда быть длиной набора данных? Не повлияет ли это на эффективность тренировок?