Mi piacerebbe essere in grado di fare una query di intervallo veloce su un tavolo da Parquet. La quantità di dati da restituire è molto piccola rispetto alla dimensione totale, ma poiché deve essere eseguita una scansione completa della colonna è troppo lenta per il mio caso d'uso.Index in Parquet
L'utilizzo di un indice risolverebbe questo problema e ho letto che questo doveva essere aggiunto in Parquet 2.0. Tuttavia, non riesco a trovare altre informazioni su questo quindi immagino che non lo sia. Non penso che ci sarebbero ostacoli fondamentali che impediscono l'aggiunta di indici (multi-colonna), se i dati sono stati ordinati, che nel mio caso lo è.
La mia domanda è: quando verranno aggiunti gli indici a Parquet e quale sarebbe il design di alto livello per farlo? Penso che sarei già soddisfatto di un indice che indichi la partizione corretta.
Cordiali saluti,
Sjoerd.
Un tempo lunghissimo. È previsto per [v2.0] (https://github.com/Parquet/parquet-mr). – user568109
forse interessante per te: https://github.com/lightcopy/parquet-index –