Ho un po 'di expirience con Apache Spark e Spark-SQL. Recentemente ho trovato il progetto Apache Drill. Potresti descrivermi quali sono i vantaggi/differenze più significativi tra loro? Ho già letto Fast Hadoop Analytics (Cloudera Impala vs Spark/Shark vs Apache Drill) ma questo argomento non è ancora chiaro per me.Apache Drill vs Spark
9
A
risposta
17
Ecco un articolo mi sono imbattuto in che discute alcune delle tecnologie SQL: http://www.zdnet.com/article/sql-and-hadoop-its-complicated/
Drill è fondamentalmente differente sia l'esperienza dell'utente e l'architettura. Ad esempio:
- Drill è un motore di query senza schema. Ad esempio, è possibile puntarlo in una directory di file di registro JSON o Parquet (nella casella locale, una condivisione NFS, S3, HDFS, MapR-FS, ecc.) Ed eseguire una query. Non è necessario caricare dati, creare e gestire schemi o pre-elaborare i dati.
- Drill utilizza internamente un modello di documento JSON che consente di interrogare i dati di qualsiasi struttura. Molti dati moderni sono complessi, il che significa che un record può contenere strutture e array nidificati, mentre i nomi dei campi possono effettivamente codificare valori quali timestamp o URL di pagine web. Drill consente ai normali strumenti di BI di operare senza problemi su tali dati senza richiedere che i dati vengano appiattiti in anticipo.
- Il drill funziona con una varietà di archivi di dati non relazionali, inclusi i database Hadoop, NoSQL (MongoDB, HBase) e il cloud storage. Verranno aggiunti ulteriori archivi dati.
Drill 1.0 è stato appena rilasciato (19 maggio 2015). Puoi facilmente scaricarlo sul tuo laptop e giocare con esso senza alcuna infrastruttura (Hadoop, NoSQL, ecc.).
http://www.javacodegeeks.com/2015/12/apache-spark-vs-apache-drill.html – TechDog