Sto cercando di capire esattamente cosa siano realmente questi nuovi archivi di dati con funzioni come bigtable, hbase e cassandra.memorizzando enormi quantità di dati di serie temporali in derivati bigtable
Io lavoro con enormi quantità di dati del mercato azionario, miliardi di righe di dati prezzi/quote che possono aggiungere fino a 100s di gigabyte ogni giorno (sebbene questi file di testo spesso comprimano almeno di un ordine di grandezza). Questi dati sono fondamentalmente una manciata di numeri, due o tre stringhe brevi e un timestamp (di solito al millisecondo). Se dovessi scegliere un identificatore univoco per ogni riga, dovrei selezionare l'intera riga (poiché uno scambio può generare più valori per lo stesso simbolo nello stesso millisecondo).
Suppongo che il modo più semplice per mappare questi dati su bigtable (sto includendo le relative derivate) sia per nome di simbolo e data (che può restituire una serie temporale molto ampia, più di milioni di punti dati non sono inauditi) . Dalla lettura delle loro descrizioni, sembra che più chiavi possano essere utilizzate con questi sistemi. Suppongo anche che i numeri decimali non siano buoni candidati per le chiavi.
Alcuni di questi sistemi (Cassandra, ad esempio) afferma di essere in grado di eseguire query di intervallo. Sarei in grado di interrogare in modo efficiente, ad esempio, tutti i valori per MSFT, per un dato giorno, tra le 11:00 e le 13:30?
E se voglio cercare tra TUTTI i simboli per un determinato giorno e richiedere tutti i simboli che hanno un prezzo tra $ 10 e $ 10.25 (quindi sto cercando i valori e voglio che le chiavi vengano restituite come risultato)?
Cosa succede se voglio ottenere due serie di volte, sottrarre l'una dall'altra e restituire le due serie di volte e il loro risultato, dovrò fare la sua logica nel mio programma?
Leggere documenti pertinenti sembra dimostrare che questi sistemi non sono molto adatti per i massicci sistemi di serie storiche. Tuttavia, se i sistemi come google maps sono basati su di essi, penso che anche le serie temporali dovrebbero funzionare. Ad esempio, pensa al tempo come all'asse x, ai prezzi come asse y e ai simboli come posizioni nominate - tutto ad un tratto sembra bigtable dovrebbe essere lo store ideale per le serie temporali (se l'intera terra può essere immagazzinata, recuperata , ingrandito e annotato, i dati del mercato azionario dovrebbero essere banali).
Un esperto può indicarmi la giusta direzione o chiarire eventuali equivoci.
Grazie
quando dici "puoi dire a Cassandra di trovare tutti i tasti che iniziano con MSFT-ora e termina con MSFT-ora + 1ora" - Intendi Query RowSclice ?? Voglio dire se chiedo a cassandra di darmi tutti i tasti di riga tra t1 e t2, essendo un timestamp, è efficiente. Ho sentito che rowSlices non è efficiente come le slice di colonne in Cassandra? – Peter