Мы начинаем использовать dvc с git для управления версиями проектов машинного обучения. Для удаленного хранения dvc мы используем облачное хранилище Google.
Наш набор данных представляет собой набор данных OCR с более чем 100 000 небольших изображений, общий размер которых составляет около 200 МБ. Используя dvc для отслеживания этого набора данных, мы столкнулись со следующими проблемами:
- Добавление набора данных для отслеживания заняло много времени.
- Очень медленная загрузка.
- Очень медленная загрузка.
- Обновление/удаление/добавление только одного изображения в наборе данных приводит к тому, что dvc пересчитывает множество вещей: хэши и т. д....
С другой стороны, если мы заархивируем наш набор данных и отследим его как один файл, dvc будет работать достаточно быстро. Но проблема в том, что таким образом мы не можем отслеживать изменения для конкретного файла.
Цель состоит в том, чтобы иметь контроль версий для набора данных с большим количеством файлов со следующей функциональностью.
- Отслеживание каждого отдельного файла.
- Фиксация только изменений, а не всего набора данных.
- Быстрая проверка/вытягивание
Любое предложение по лучшему решению приемлемо.