Создать индекс для таблиц в Delta Lake

Я новичок в Delta Lake, но хочу создать несколько индексов для быстрого поиска для некоторых таблиц в Delta Lake. Основываясь на документации, он показывает, что ближайшим вариантом является создание пропуска данных с последующим индексированием пропущенной части:

create DATASKIPPING index on [TableName] [DBName.]tableName

Кажется, не могу найти других методов создания индексов, кроме пропуска данных

Как мне создать индексы так же, как любые таблицы в РСУБД, в Delta Lake?

Спасибо!


person user12264392    schedule 23.10.2019    source источник


Ответы (1)


Индексирование выполняется автоматически в Databricks Delta. По мере записи данных столбцы в файлах, которые вы пишете, индексируются и добавляются во внутренние метаданные таблицы. При запросе данных и фильтрации применяется пропуск данных.

Кроме того, вы можете использовать z-порядок, чтобы оптимизировать файлы на основе определенных столбцов. Опять же, индексирование по-прежнему будет использоваться и для других столбцов.

person Silvio    schedule 28.10.2019
comment
Версия с открытым исходным кодом, похоже, не реализует эту функцию :( - person Gooseman; 25.05.2021