Публикации по теме 'data-lake'


Понимание ограничений дельта-таблиц
Delta Lake — уровень хранения данных с открытым исходным кодом, обеспечивающий надежность озер данных, позволяет хранить данные в озерах данных и управлять ими. Дельта-таблицы — это основная концепция Delta Lake, которая обеспечивает управление версиями данных, транзакционные операции чтения и записи, принудительное применение схемы и управление метаданными. В этой статье мы сосредоточимся на ограничениях дельта-таблиц, на том, как они работают, и на их реализации с примерами кода...

Использование Versatile Data Kit для получения и обработки данных из REST API
База данных Использование Versatile Data Kit для получения и обработки данных из REST API Руководство по использованию Versatile Data Kit (VDK) для получения данных из REST API, а также несколько советов по установке сервера VDK. Versatile Data Kit (VDK) — фреймворк с открытым исходным кодом, недавно выпущенный компанией VMware. Он работает с озером данных, где вы можете получать данные разных форматов, а затем легко получать к ним доступ. В моей предыдущей статье под названием..

Потоковое машинное обучение без озера данных
Примечание редактора. Кай Венер будет спикером ODSC Europe в июне этого года. Обязательно ознакомьтесь с его докладом «Apache Kafka для машинного обучения в реальном времени без озера данных » здесь! Сочетание потоковой передачи данных и машинного обучения (ML) позволяет создать единую масштабируемую, надежную, но в то же время простую инфраструктуру для всех задач машинного обучения с использованием экосистемы Apache Kafka. В этом сообщении блога представлен вариант..

От необработанных видео до обучения GAN — внедрение конвейера данных и легкого глубокого обучения…
Внедрение конвейера данных и облегченного озера данных глубокого обучения с использованием ClearML на AWS. Введение Hour One — это стартап, ориентированный на ИИ, и его основной продукт преобразует текст в видео виртуальных докладчиков . Создание реалистичных, плавных и убедительных видеороликов, в которых докладчики говорят и жестикулируют на нескольких языках, на основе одного только текста — сложная задача, требующая обучения сложных моделей глубокого обучения и большого..

ВВЕДЕНИЕ В ОЗЕРО ДЕЛЬТА
Облачные хранилища объектов, такие как Amazon S3 и Azure Blob Storage, стали одними из крупнейших и наиболее широко используемых систем хранения на планете, хранящих эксабайты данных для миллионов клиентов. Помимо традиционных преимуществ облачных сервисов, таких как выставление счетов по мере использования, экономия за счет масштаба и экспертное управление, облачные хранилища объектов особенно привлекательны, поскольку позволяют пользователям раздельно масштабировать вычислительные ресурсы..

ELTIMS — Акроним новых данных
ETL не покрывает наши современные потребности в данных Каждое утро большинство из нас начинают свой день с проверки телефонов. Мы следим за тем, что происходит в мире, общаемся с друзьями и семьей и смотрим пару видеороликов о кошках. Все эти действия требуют, чтобы в фоновом режиме происходили десятки вещей, включая курирование и загрузку данных, которые обеспечивают то, что мы хотим видеть. В совокупности мы генерируем астрономический объем данных, около 2,5 квинтиллионов байтов в..

3 антипаттерна Data Lake, которых следует избегать
Избавьтесь от этих тревожных привычек и начните путь к мастерству в озере данных. Вступление Озера данных предлагают заманчивый потенциал роста производительности, что является основной причиной их высокого уровня распространения. Однако иногда обещание технологической производительности может затмить неприятный опыт разработчика. Это неприятно, так как я считаю, что опыт разработчика так же, если не больше, важен для доказательства ценности технологии или парадигмы. При..