2012-01-24 26 views
12

Attualmente sto lavorando a pochi progetti con MongoDB e Apache Cassandra rispettivamente. Sto anche usando Solr molto e sto gestendo "molti" dati con loro (circa 1-2TB). Ho sentito parlare di Greenplum e Vertica la prima volta nell'ultima settimana e non sono proprio sicuro di dove metterli nel mio cervello. Mi sembrano come le soluzioni Dataware House (DWH) e non ho davvero lavorato su DWH. E sembrano costare un sacco di soldi (ad esempio $ 60k per lo storage da 1TB in Greenplum). Non sto attualmente maneggiando petabyte di dati e non lo farò io penso, ma prodotti come Cassandra sembra anche di essere in grado di gestire questoVantaggi di database come Greenplum o Vertica rispetto a MongoDB o Cassandra

Cassandra è il leader NoSQL riconosciuto quando si tratta di comodamente scalare fino a terabyte o petabyte di dati.

via http://www.datastax.com/why-cassandra

Quindi la mia domanda: perché la gente dovrebbe usare Greenplum & Co? C'è un enorme vantaggio rispetto a questi altri prodotti?

Grazie.

risposta

7

Abbiamo lavorato in Hadoop per 4 anni e Vertica per 2. Abbiamo avuto enormi problemi di caricamento e indicizzazione con le nostre tabelle in MySQL. Stavamo correndo i fumi con la nostra soluzione di sharding fatta in casa. Avremmo potuto investire pesantemente nello sviluppo di una soluzione di sharding più sofisticata, che sarebbe stata piuttosto dolorosa, imo. Avremmo potuto pensare più a fondo su quali dati assolutamente necessari per conservare in un database SQL.

Ma alla fine della giornata, il passaggio da MySQL a Vertica è stato quello che abbiamo scelto. I modelli di prestazioni di Vertica sono molto diversi da quelli di MySQL, che ha i suoi mal di testa. Ma può caricare molti dati molto velocemente, ed è buono per le query pesanti che farebbero girare la testa a MySQL.

Per come la vedo io, Vertica è una soluzione quando si è già investiti in SQL e si ha bisogno di un database SQL più gravoso. Non sono un esperto, quindi non potrei dirvi che transizione a Oracle o DB2 sarebbe stata paragonata a Vertica, né in termini di sforzo di integrazione o costo monetario.

Vertica offre molte funzionalità a cui abbiamo appena esaminato. Questi potrebbero essere molto attraenti per gli altri con casi d'uso diversi dai nostri.

6

Sono un DBA Vertica e prima ero uno sviluppatore con Vertica. Michael Stonebreaker (il ragazzo dietro Ingres, Vertica e altri database) ha alcune critiche di NoSQL che vale la pena ascoltare.

In sostanza, qui i vantaggi di Vertica come li vedo:

  • è piuttosto veloce su grandi quantità di dati
  • la sua prestazione è simile (così ho potuto capire) ad altre soluzioni di data warehousing, ma il vantaggio è l'hardware di clustering e commodity. Quindi puoi scalare aggiungendo altro hardware di base. Sembra a buon mercato in termini di costo complessivo per TB. (Andando dalla memoria non è una citazione esatta.)
  • Ancora, è per il data warehousing.
  • È possibile utilizzare SQL e tabelle tradizionali. È sotto il cofano che è diverso.

Non riesco a parlare con gli altri prodotti, ma sono sicuro che anche molti di loro vanno bene.

Edit: Ecco un discorso da Stonebreaker: http://www.slideshare.net/Dataversity/newsql-vs-nosql-for-new-oltp-michael-stonebraker-voltdb

2

C'è un sacco di confusione su quando utilizzare un database fila come MySQL o Oracle o un DB colonnare come Infobright o Vertica o una variante NoSQL o Hadoop . Abbiamo scritto un white paper per cercare di individuare le tecnologie più adatte per i casi d'uso: è possibile scaricare Emerging Database Landscape (scorrere verso metà) o guardare uno on-demand webinar on the same topic.

speranza o è utile per voi

+0

Va detto che Vertica può importare dati da Hadoop. Non si escludono a vicenda. – geoffrobinson

+1

Nessuno dei collegamenti forniti funziona. Il panorama dati emergenti mostra 404 e il webinar on demand non mostra alcun video elencato. Cura aggiornare i collegamenti? – Kingz

+0

Ecco il link aggiornato: http://tdwi.org/whitepapers/2011/10/users-guide-to-the-emerging-database-landscape-row-vs-columnar-vs-nosql.aspx – user398039

40

Cassandra, Greenplum e Vertica tutte gestire enormi quantità di dati, ma in modi molto diversi.

Alcuni casi d'uso costituiti in cui ogni database ha i suoi punti di forza:

Usa Cassandra per:

tweets.insert(key:user, data:blob); 
tweets.get(key:user) 

Uso Greenplum per:

begin; 
update account set balance = balance - 10 where account_id = 1; 
update account set balance = balance + 10 where account_id = 2; 
commit; 

Uso Vertica per:

select sum(balance) 
over (partition by region order by account rows unbounded preceding) 
from transactions; 
+0

Risposta stupenda! –

11

Lavoro nel settore delle telecomunicazioni. Ci occupiamo di set di dati di grandi dimensioni e di modelli EDW complessi (data warehouse aziendali). Abbiamo iniziato con Teradata ed è andata bene per alcuni anni. Quindi i dati sono aumentati in modo esponenziale e, come sapete, l'espansione in Teradata è costosa. Pertanto, abbiamo valutato EMC, vale a dire prugna verde, Oracle Exadata, HP Vertica e IBM Netteza.

In velocità, generazione di 20 rapporti andato così: 1. Vertica, 2. Netteza, 3. verde prugna, 4. oracolo

In rapporto di compressione: Vertica aveva un vantaggio naturale. Tra l'altro anche l'IBM è buona. Il peggiore secondo i parametri di riferimento è emc e oracle. Come sempre previsto, entrambi vogliono vendere tonnellate di storage e hardware.

Scalabilità: tutti scalano correttamente.

Tempo di caricamento: emc è il migliore qui, altri (teradata, Vertica, oracle, IBM) sono buoni anche.

Query utente simultaneo: Vertica, emc, prugna verde, quindi solo IBM. Oracle exadata è lento in qualsiasi tipo di caso di query comparativamente ma molto meglio del suo vecchio banco 10g.

Prezzo: Teradata> Oracle> IBM> HP> EMC

Nota: Necessità di confrontare mele ad Apple, stesso numero di core, RAM, volume di dati, e le relazioni

Abbiamo scelto Vertica per l'hardware indipendente modello di prezzo, prezzi più bassi e buone prestazioni. Ora tutti gli oltre 40 utenti sono felici di generare report senza attendere e tutto si adatta ai server hp dl380 a basso costo. è ottimo per il caso di utilizzo di olap/edw.

Tutta questa analisi è solo per case edw/analytics/olap. Sono ancora un fan dei fan di oracle per tutto l'oltp, il ricco plsql, la connettività ecc su qualsiasi hardware o sistema.Exadata offre un carico di lavoro misto decente, ma irragionevole in rapporto prezzo/prestazioni e deve ancora migrare codice 10g in best practice exadata (una specie di MMP come, elaborazione bulk, ecc. E il tempo impiegato rispetto a quello che rivendicano

3

Pivotal, in precedenza Greenplum, è lo spin-off ben finanziato da EMC, VMware e GE. Il mercato di Pivotal è costituito da aziende (e agenzie Homeland Cybersecurity) con database di dimensioni multi-petabyte che richiedono analisi complesse e ETL ad alta velocità. L'origine di Greenplum è un DB PostgreSQL ridisegnato per Map Reduced . MPP, con aggiunte successive per colonnare-sostegno e HDFS Si sposa il meglio di SQL + NoSQL rendendo NewSQL

Caratteristiche:.

  • Nel 2015H1 la maggior parte del codice, incluso Greenplum DB & HAWQ, andrà a Open Source. Alcune funzioni avanzate di gestione & nella parte superiore dello stack rimarranno proprietarie.
  • Database RDBMS share-nothing MPP (Massively Parallel Processing) progettato per ambienti multi-terrabyte e multi-petabyte.
  • Conformità SQL completa - supporto di tutte le versioni di SQL: '92, '99, 2003 OLAP, ecc. Compatibile al 100% con PostgreSQL 8.2. • Solo SQL su HADOOP in grado di gestire tutte le 99 query utilizzate dallo standard di riferimento TPC-DS senza riscrivere. La competizione non può farne molti e sono molto più lenti. Whitepaper SIGMON.
  • conformità ACID.
  • Supporta i dati memorizzati in HDFS, Hive, HBase, Avro, ProtoBuf, file di testo e sequenze delimitati.
  • Integrazione Solr/Lucene per la ricerca multilingue full-text incorporata nell'SQL.
  • Include software Open Source: Spring, Cloud Foundry, Redis.io, RabbitMQ, Grails, Groovy, Open Chorus, Pig, ZooKeeper, Mahout, MADlib, MapR. Alcuni di questi sono utilizzati presso EBSCO.
  • Connettività nativa a HBase, che è una tecnologia di tipo store-store molto popolare per Hadoop.
  • La partecipazione di VMware all'investimento di $ 150 milioni in MongoDB porterà probabilmente all'integrazione di file XML di petabyte.
  • La specifica tabella per tabella delle chiavi di distribuzione consente di progettare gli schemi di tabelle in modo da sfruttare i join e i gruppi locali, ma eseguirà anche senza questo.
  • Archiviazione dati orientata su colonna e/o colonna. È l'unico database in cui una tabella può essere polimorfica con partizioni basate su colonne e righe come definito dal DBA.
  • Una tabella di archivio colonne può avere un algoritmo di compressione diverso per colonna poiché tipi di dati diversi hanno caratteristiche di compressione diverse per ottimizzare la loro memorizzazione.
  • Ottimizzatore di query CBO simile a una mappa avanzata: le query possono essere eseguite su centinaia di migliaia di nodi.
  • È l'unico database con un modello di esecuzione dinamico della pipeline distribuita per l'elaborazione della query. Mentre i vecchi database si basano sull'esecuzione materializzata, Greenplum non deve scrivere dati su disco con ogni passaggio intermedio. Trasmette i dati alla fase successiva di un piano di query in memoria e non deve mai materializzare i dati su disco, quindi è molto più veloce di quanto chiunque abbia dimostrato su Hadoop.
  • Le query complesse su set di dati di grandi dimensioni vengono risolte in secondi o addirittura sotto-secondi.
  • Gestione dati: fornisce statistiche sulle tabelle, sicurezza delle tabelle.
  • Analisi approfondite - inclusi algoritmi di data mining o apprendimento automatico tramite MADlib. Profonda analisi testuale semantica utilizzando GPText.
  • Analisi grafica: database grafico e algoritmi con memoria in miliardi di edge distribuiti in GraphLab.
  • Integrazione di SQL, indici Solr, GPText, MADlib e GraphLab in una singola query per analisi sintattica massiccia e analisi di affinità grafico/matrice per analisi di ricerca approfondite.
  • Completamente compatibile con ODBC/JDBC.
  • Velocità ETL distribuita di 16 TB/ora !! Integrazione con Talend disponibile.
  • Supporto cloud: Pivotal prevede di impacchettare il software Cloud Foundry in modo che possa essere utilizzato per ospitare Pivotal anche su altri cloud, incluso EC2 di Amazon Web Services. La gestione dei dati pivotal sarà disponibile per l'utilizzo in una varietà di impostazioni cloud e non dipenderà da un sistema VMware proprietario. Prenderà di mira OpenStack, vSphere, vCloud Director o marchi privati. IBM ha annunciato che è standardizzata su Cloud Foundry per il suo PaaS. Pagina di confluenza
  • Due offerte di "appliance" hardware: Isilon NAS & Greenplum DCA.