Streaming di framework su Hadoop che supportano ORC, formati di file parquet

Lo streaming Hadoop supporta i nuovi formati di archiviazione colonnari come ORC e parquet o ci sono framework su Hadoop che consentono di leggere tali formati?Streaming di framework su Hadoop che supportano ORC, formati di file parquet

fonte

2014-04-03 viper

È possibile utilizzare HCatalog per leggere il file ORC. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

Fornisce un'astrazione per leggere file ORC, Testo, Sequenza, RC. Non sono sicuro che ci sia il supporto del parquet lì. Tuttavia, se ciò non sembra ragionevole, è possibile utilizzare i lettori di record ORC nella base del codice Hive per leggere i file ORC (ORCInputFormat, ORCOutputFormat).

fonte

2014-06-24 10:59:07 user3614890

Piuttosto vecchie notizie, ma ho faticato con questo qualche tempo fa. Non ho trovato alcuna soluzione per questo, di conseguenza, ho creato una serie di formati di input/output che convertono i file avro e parquet in/da testo normale e json. Può essere trovato a http://github.com/whale2/iow-hadoop-streaming. Non c'è supporto per ORC, ma Avro e Parquet sono supportati. Spero che questo aiuti.

fonte

2014-09-28 11:15:15 user3134802

Streaming di framework su Hadoop che supportano ORC, formati di file parquet

risposta

Problemi correlati