Apache Drill vs Spark

Ho un po 'di expirience con Apache Spark e Spark-SQL. Recentemente ho trovato il progetto Apache Drill. Potresti descrivermi quali sono i vantaggi/differenze più significativi tra loro? Ho già letto Fast Hadoop Analytics (Cloudera Impala vs Spark/Shark vs Apache Drill) ma questo argomento non è ancora chiaro per me.Apache Drill vs Spark

fonte

2015-04-22 Matzz

http://www.javacodegeeks.com/2015/12/apache-spark-vs-apache-drill.html – TechDog

Ecco un articolo mi sono imbattuto in che discute alcune delle tecnologie SQL: http://www.zdnet.com/article/sql-and-hadoop-its-complicated/

Drill è fondamentalmente differente sia l'esperienza dell'utente e l'architettura. Ad esempio:

Drill è un motore di query senza schema. Ad esempio, è possibile puntarlo in una directory di file di registro JSON o Parquet (nella casella locale, una condivisione NFS, S3, HDFS, MapR-FS, ecc.) Ed eseguire una query. Non è necessario caricare dati, creare e gestire schemi o pre-elaborare i dati.
Drill utilizza internamente un modello di documento JSON che consente di interrogare i dati di qualsiasi struttura. Molti dati moderni sono complessi, il che significa che un record può contenere strutture e array nidificati, mentre i nomi dei campi possono effettivamente codificare valori quali timestamp o URL di pagine web. Drill consente ai normali strumenti di BI di operare senza problemi su tali dati senza richiedere che i dati vengano appiattiti in anticipo.
Il drill funziona con una varietà di archivi di dati non relazionali, inclusi i database Hadoop, NoSQL (MongoDB, HBase) e il cloud storage. Verranno aggiunti ulteriori archivi dati.

Drill 1.0 è stato appena rilasciato (19 maggio 2015). Puoi facilmente scaricarlo sul tuo laptop e giocare con esso senza alcuna infrastruttura (Hadoop, NoSQL, ecc.).

fonte

2015-05-28 04:08:49

risposta

Problemi correlati