2016-03-14 14 views
7

Ho sentito un nuovo termine Data Lake. Ho cercato su google cheHadoop Vs Data Lake

Un data lake è un archivio di archiviazione su larga scala e un motore di elaborazione. Un data lake fornisce "spazio di archiviazione per qualsiasi tipo di dati, enorme potenza di elaborazione e la capacità di gestire attività o lavori concomitanti virtualmente illimitati"

Il termine data lake è spesso associato all'archiviazione di oggetti orientata a Hadoop. In tale scenario, i dati di un'organizzazione vengono prima caricati nella piattaforma Hadoop, quindi gli strumenti di business analytics e data mining vengono applicati ai dati in cui risiedono sui nodi cluster di Hadoop dei computer commodity.

La stessa cosa è fatta da Hadoop. Abbiamo HDFS per lo storage e MapReduce per il calcolo. Sono un po 'confuso su Hadoop e Data Lake. Qual è la differenza tra entrambi. Se sono uguali, perché questo termine si presenta. O come definire un lago di dati.

+0

un quadro più selettivo e utilizzabile per l'analisi aziendale? hadoop bisogno di più comprensione su come integrare l'algoritmo di analisi esterna in MapReduce se non mi sbaglio – AchmadJP

+0

povero me ne ho sentito parlare oggi. LOL –

risposta

9

Data Lake è una "idea" astratta. Hadoop è tecnologia/software specifici. È possibile implementare un lago dati utilizzando hadoop o utilizzando uno strumento diverso.

+0

Significa che HDFS e data lake possono essere gli stessi –

+0

@KishoreKumarSuthar HDFS è solo un filesystem. Quindi no. – Havnar

+0

@Havnar Secondo Wikipedia, sì. "Un esempio di un data lake è il file system distribuito utilizzato in Apache Hadoop." – Enrique

4

Data Lake è una metodologia di memorizzazione dei dati all'interno di un sistema che facilita la raccolta di dati in schemi e forme strutturali, in genere blob di oggetti o file.

Il concetto di un lago dati è strettamente legato ad Apache Hadoop e al suo ecosistema di progetti open source. Tutte le discussioni sul lago dati portano rapidamente a una descrizione di come costruire un lago dati utilizzando la potenza dell'ecosistema Apache Hadoop. È diventato popolare perché fornisce un modo economicamente conveniente e tecnologicamente fattibile per affrontare le sfide dei big data. Le organizzazioni stanno scoprendo il lago dei dati come un'evoluzione dalla loro architettura di dati esistente.

Following whitepaper servirà come esempio per la creazione di dati lago con Hadoop.

1

Direi che la domanda è troppo simile.

"Oracle vs Database".

Un data lake è un metodo di memorizzazione di dati all'interno di un sistema o di un repository. Hadoop fa riferimento alla tecnologia, Hadoop è un framework software open source per la memorizzazione dei dati. Quindi un esempio di un data lake è il file system distribuito utilizzato in Hadoop.

+2

Direi che Data Lake è una delle cose che puoi fare con Hadoop o un'altra tecnologia, ma non tutte le applicazioni Hadoop sono un Data Lake. – Rich