Prestazioni di Apache Drill

Esistono benchmark di prestazioni (quelli veri) che confrontano Stinger vs Impala vs Drill? Inoltre, che è preferibile - il mio caso d'uso sarà principalmente verso query interattive ad hoc su Hive. Grazie.Prestazioni di Apache Drill

fonte

2015-08-22 Sai

Ci sono alcuni numeri di prestazioni sul sito http://allegro.tech/fast-data-hackathon.html.

In generale, Drill e Impala sono comparabili nelle prestazioni per le query interattive con la differenziazione di Drill essendo la sua capacità di interrogare senza definizioni di metadati e la sua facilità d'uso lavorando con i dati JSON.

Si noti che questi test sono su versioni molto vecchie su Drill come 0.8/0.9 (anche non configurate in modo appropriato per la localizzazione dei dati). Ora Drill è 1.1 con molti miglioramenti su SQL (funzioni della finestra, ecc.) E prestazioni.

fonte

2015-08-26 18:16:10

Grazie per la tua risposta, quali sono le tue opinioni su Stinger.next? Come si confronta con Drill? Qualche benchmark per determinare quale è più veloce? – Sai

Inoltre, può eseguire Drill quando si ha a che fare con set di dati di TB? Ho letto che Impala e Presto non sono adatti per query complicate su enormi set di dati. – Sai

Non si può fare benchmark in questo modo, non ha senso e non ci si dovrebbe mai fidare di un tale benchmark.

Tutto dipenderà dai propri dati, si dispone di file JSON? preferisci Drill. Vuoi interrogare più di 1 TB, preferisci Hive e così via.

Inoltre, è possibile considerare il formato del file, JSON, Kudu, Parquet o ORC.

Quindi l'ottimizzazione, Hive + Tez sembra migliore per le query parrarel ma molto lenta per una singola query. Mentre Impala è l'opposto (MapReduce versus MassiveParrarelProcessing).

Inoltre, si vuole considerare il ressource hardware, disco SSD o no, ecc ..

mi raccomando, iniziare con il file JSON Apache Drill +, quindi provare Apache Drill con parquet o ORC.

Se si desidera assistenza, descrivere esattamente ciò che si ha (dati + hardware) e ciò che si desidera.

fonte

2016-10-07 09:44:02

Ciao Thomas, sto cercando di eseguire query di drill di grandi dimensioni su un singolo nodo con 512 GB di RAM e 48 CPU. La query impiega troppo tempo per essere eseguita per circa 30 GB di dati. Ci vuole più di 1 ora per completare l'aggregazione di tutti i record. Avete dei parametri di ottimizzazione che devo controllare per questo? –

1 nodo? Devi capire che cos'è Drill, come PrestoDB, Impala ... è un motore di elaborazione parallelo in MPP, quindi è meglio avere diversi nodi ^^ –

Dato che abbiamo 48 CPU possiamo parallelizzare tra queste? –

risposta

Problemi correlati