Бин Фан и Амелия Вонг

Работая в сфере больших данных и машинного обучения, мы часто слышим от инженеров по обработке данных, что самым большим препятствием на пути извлечения ценности из данных является возможность эффективного доступа к данным. Разрозненные хранилища данных, изолированные островки данных, часто рассматриваются специалистами по обработке данных как главный виновник. В течение многих лет было много попыток решить проблемы, вызванные разрозненностью данных, но эти попытки привели к еще большему количеству разрозненных данных. Вместо того, чтобы пытаться устранить разрозненные хранилища данных, мы считаем, что правильным подходом является их использование.

Почему существуют разрозненные хранилища данных

Существуют три основные причины существования разрозненных данных. Во-первых, в любой организации есть данные с различными характеристиками (данные IOT, поведенческие данные, данные транзакций и т. Д.), Которые предназначены для различных целей, и некоторые данные будут более критичными для бизнеса, чем другие. Это вызывает потребность в разрозненных системах хранения. Кроме того, история показывает, что каждые пять-десять лет в технологиях хранения данных будет появляться новая волна, в результате которой будут появляться системы хранения, которые быстрее, дешевле или лучше предназначены для определенных типов данных. У организаций также есть желание избежать привязки к поставщикам, и в результате они диверсифицируют свои хранилища данных. Наконец, есть правила, которые требуют хранения данных.

Использование разрозненных данных

Мы считаем, что разрозненные хранилища данных сами по себе не являются проблемой. Основная проблема заключается в том, как сделать данные доступными для инженеров по обработке данных, не усложняя их и не дублируя их. Вместо устранения разрозненности мы предлагаем использовать систему оркестровки данных, которая находится между вычислительными платформами и системами хранения, для решения проблем с доступом к данным. Мы определяем систему оркестровки данных как уровень, который абстрагирует доступ к данным между системами хранения, виртуализирует все данные и представляет данные через стандартизированные API-интерфейсы с глобальным пространством имен для приложений, управляемых данными.

С помощью системы оркестровки данных инженеры по обработке данных могут легко получить доступ к данным, хранящимся в различных системах хранения. Например, инженеру данных может потребоваться объединить две таблицы, изначально хранящиеся в двух разных регионах - локальном кластере Hadoop и удаленном кластере Hadoop. В этом случае этот инженер может развернуть Alluxio (реализацию уровня оркестровки данных с открытым исходным кодом) в качестве уровня оркестрации данных и изменить расположение таблицы в мета-хранилище Hive на URL-адреса Alluxio, а не на каждый отдельный физический кластер Hadoop.

В результате удаленная таблица будет кэшироваться на уровне Alluxio и обеспечивает гораздо лучшую производительность для последующего или повторного доступа к таблице, чем прямое чтение таблицы. Кроме того, группы хранения могут принимать оптимальные решения о покупке хранилища, не будучи скованными влиянием своих решений на группы приложений.