2012-03-24 16 views
5

Sto costruendo un sistema per analizzare grandi quantità di dati finanziari relativi ai prezzi degli scambi di titoli. Una grande sfida in questo è determinare quale metodo di archiviazione utilizzare per i dati dato che i dati saranno nei 10 di terrabytes. Ci saranno molte query sui dati come il calcolo delle medie, il calcolo delle deviazioni standard e somme filtrate da colonne multiple come prezzo, tempo, volume, ecc. Le dichiarazioni di join non sono un requisito, ma sarebbe bello avere.Archiviazione dati per analisi finanziarie

In questo momento, sto esaminando l'edizione della community infobright community, monetdb e greenplum per scopi di valutazione. Sembrano eccezionali finora, ma per le funzionalità più avanzate, alcune di queste sono richieste non sono disponibili in alcune di queste edizioni (utilizzando più server, istruzioni di inserimento/aggiornamento, ecc.).

Quali soluzioni utilizzeresti per questa situazione e quali vantaggi offre rispetto alle alternative? Essere redditizi è un vantaggio importante. Se devo pagare per una soluzione di data warehousing lo farò, ma lo preferirei piuttosto evitarlo e prendere l'itinerario open-source/community se possibile.

+1

In realtà (pariale) somme, medie, stddevs - anche se filtrate - non sono data mining. Sono semplicemente ** statici **. –

+1

Il data mining è la scoperta di nuove informazioni da un insieme di dati. Le statistiche sono uno strumento per aiutare in questo processo. Non penso che una tale enfasi sulla terminologia sia favorevole e, se ne discutiamo, non otterremo nulla.È come se dicessi che non sono d'accordo con il tuo post perché hai infastidito le statistiche come "statiche" - è un'enfasi inutile sul tecnicismo. Il mio obiettivo è utilizzare questo database per scoprire nuove informazioni. Inoltre, le soluzioni di data warehousing sono costruite pensando al data mining. Pertanto, il concetto di data mining è applicabile qui. – user396404

+0

Tuttavia, sono d'accordo con te sul fatto che "database" è probabilmente un tag migliore per questo post. – user396404

risposta

1

Infobright offre prestazioni di interrogazione veloci senza ottimizzazione, senza proiezioni e senza indici su grandi volumi di dati. Durante il caricamento dei dati, ho visto casi in cui è possibile caricare 80 TB di dati all'ora, oltre 12.000 inserti al secondo.

Come funziona?

  1. Orientamento Colonna vs Orientamento Row
  2. pacchetti di dati, più media di compressione di 20: 1
  3. Conoscenza Grid - seconda risposta sub su richiesta
  4. granulare motore, costruito su di un'architettura mysql

Suggerirei comunque di considerare la possibilità di esaminare le licenze aziendali, ma è certamente possibile valutare l'edizione della community e testare le prestazioni e le esigenze di caricamento dei dati su di esso.

Disclaimer: l'autore è affiliato con Infobright.

1

Penso che tutti i database che menzioni faranno quello che ti serve. Se hai a che fare con 10 di TB di dati che ottengono una licenza aziendale da eseguire in un cluster MPP, probabilmente sarebbe un buon uso dei fondi per ridurre i tempi di elaborazione. Inoltre, se questo DW eseguirà un'importante elaborazione per la tua organizzazione, avere una licenza significa ottenere supporto dal fornitore, che è importante per molte aziende. YMMV.

Una domanda più importante sarebbe: come saranno i tassi di ingerimento dei dati? Per un sistema finanziario, penso che gran parte dell'equazione dovrebbe essere la capacità di continuare a caricare nuovi dati nel tuo sistema continuando a fare la tua normale elaborazione.

Ho solo familiarità con Greenplum fuori dalla lista dei candidati, ma so che fa bene a caricare grandi quantità di dati in un breve lasso di tempo. GP ha anche molte funzioni statistiche e analitiche integrate che puoi eseguire in modo nativo all'interno del DB, incluse funzioni SQL integrate, MADLib, R, ecc.