Это самый первый выпуск DVC❤️Heartbeat. Каждый месяц мы будем делиться нашими новостями, открытиями, интересными материалами для чтения, выводами сообщества и всем остальным в процессе.

Некоторые из них связаны с нашим детищем DVC и его путешествием. Остальные - это сборник захватывающих историй и идей, основанных на лучших практиках и рабочем процессе машинного обучения.

Новости и ссылки

Мы читаем массу статей и сообщений каждый день, и вот несколько из них, которые привлекли наше внимание. Хорошо написано, предлагает другую точку зрения и определенно стоит проверить.



Становится очевидным то, что на поздней стадии цикла ажиотажа наука о данных асимптотически приближается к инженерии, и« навыки, которые нужны специалистам по данным , продвигаются вперед в меньшей степени, основанной на визуализации и статистике, а в большей степени в соответствии с принципами . с традиционными учебными программами по информатике ».



«Я хочу исследовать, как степени свободы в системах машинного обучения версий представляют собой уникальную проблему. Я выделю четыре ключевые оси, по которым системы машинного обучения имеют понятие версии, а также несколько кратких рекомендаций, как это немного упростить ».



«… Цель этого поста - не философствовать об опасностях и темных сторонах ИИ. Фактически, этот пост направлен на решение общих проблем воспроизводимости для машинного обучения и показывает отличия программирования от других областей компьютерных наук. Во-вторых, мы увидим методы и рабочие процессы для повышения уровня воспроизводимости алгоритмов машинного обучения ».

Самоцветы DVC Discord

В наших обсуждениях сообщества Discord есть много скрытых жемчужин. Иногда они разбросаны по каналам, и их сложно отследить.

Мы проанализируем вопросы и обсуждения и поделимся наиболее интересными выводами.

Для этого нет отдельного руководства, но оно очень простое. См. Описание Формат файла DVC, чтобы узнать, как файл dvc выглядит внутри в целом. Все, что делает `dvc add` или` dvc run`, это просто вычисляет в нем поля md5, вот и все. Вы можете написать свой dvc-файл, а затем запустить dvc repro, который запустит команду (если есть) и вычислит все необходимые контрольные суммы… читать дальше

… В этом проекте очень много кода, и очень нетривиально определить зависимости кода для моего этапа обучения - выполняется много импорта, обучающий код распределен по многим модулям… подробнее

DVC официально поддерживает только обычное хранилище BLOB-объектов Azure. Озеро данных Gen1 должно быть доступно через тот же интерфейс, поэтому настройка обычного удаленного Azure Remote для dvc должна работать. Похоже, Gen2 Data Lake отключил blob API. Если вы знаете более подробно о различиях между Gen1 и Gen2, не стесняйтесь присоединяться к нашему сообществу и делиться этими знаниями.

Apache 2.0. Одна из самых распространенных и допустимых лицензий OSS.

  • Настройка S3-совместимого пульта (Localstack, wasabi)
$ dvc remote add upstream s3://my-bucket
$ dvc remote modify upstream region REGION_NAME
$ dvc remote modify upstream endpointurl <url>

Найдите и щелкните S3 API-совместимое хранилище на этой странице.

… Он добавляет туда ваши файлы данных, которые отслеживаются dvc, чтобы вы случайно не добавили их в git, вы также можете открыть его с помощью редактора файлов по своему вкусу и увидеть свои файлы данных, перечисленные там.

… С помощью dvc вы можете соединить источники данных из HDFS с конвейером в локальном проекте, просто указав его как внешнюю зависимость. Например, предположим, что ваш скрипт `process.cmd` работает с входным файлом в HDFS, а затем загружает результат в вашу локальную рабочую область, тогда с DVC это может выглядеть примерно так:

$ dvc run -d hdfs://example.com/home/shared/input -d process.cmd -o output process.cmd

… "Подробнее".

Если у вас есть какие-либо вопросы, проблемы или идеи, дайте нам знать здесь, и наша звездная команда свяжется с вами в кратчайшие сроки.