Esistono benchmark di prestazioni (quelli veri) che confrontano Stinger vs Impala vs Drill? Inoltre, che è preferibile - il mio caso d'uso sarà principalmente verso query interattive ad hoc su Hive. Grazie.Prestazioni di Apache Drill
risposta
Ci sono alcuni numeri di prestazioni sul sito http://allegro.tech/fast-data-hackathon.html.
In generale, Drill e Impala sono comparabili nelle prestazioni per le query interattive con la differenziazione di Drill essendo la sua capacità di interrogare senza definizioni di metadati e la sua facilità d'uso lavorando con i dati JSON.
Si noti che questi test sono su versioni molto vecchie su Drill come 0.8/0.9 (anche non configurate in modo appropriato per la localizzazione dei dati). Ora Drill è 1.1 con molti miglioramenti su SQL (funzioni della finestra, ecc.) E prestazioni.
Non si può fare benchmark in questo modo, non ha senso e non ci si dovrebbe mai fidare di un tale benchmark.
Tutto dipenderà dai propri dati, si dispone di file JSON? preferisci Drill. Vuoi interrogare più di 1 TB, preferisci Hive e così via.
Inoltre, è possibile considerare il formato del file, JSON, Kudu, Parquet o ORC.
Quindi l'ottimizzazione, Hive + Tez sembra migliore per le query parrarel ma molto lenta per una singola query. Mentre Impala è l'opposto (MapReduce versus MassiveParrarelProcessing).
Inoltre, si vuole considerare il ressource hardware, disco SSD o no, ecc ..
mi raccomando, iniziare con il file JSON Apache Drill +, quindi provare Apache Drill con parquet o ORC.
Se si desidera assistenza, descrivere esattamente ciò che si ha (dati + hardware) e ciò che si desidera.
Ciao Thomas, sto cercando di eseguire query di drill di grandi dimensioni su un singolo nodo con 512 GB di RAM e 48 CPU. La query impiega troppo tempo per essere eseguita per circa 30 GB di dati. Ci vuole più di 1 ora per completare l'aggregazione di tutti i record. Avete dei parametri di ottimizzazione che devo controllare per questo? –
1 nodo? Devi capire che cos'è Drill, come PrestoDB, Impala ... è un motore di elaborazione parallelo in MPP, quindi è meglio avere diversi nodi ^^ –
Dato che abbiamo 48 CPU possiamo parallelizzare tra queste? –
Grazie per la tua risposta, quali sono le tue opinioni su Stinger.next? Come si confronta con Drill? Qualche benchmark per determinare quale è più veloce? – Sai
Inoltre, può eseguire Drill quando si ha a che fare con set di dati di TB? Ho letto che Impala e Presto non sono adatti per query complicate su enormi set di dati. – Sai