Lo streaming Hadoop supporta i nuovi formati di archiviazione colonnari come ORC e parquet o ci sono framework su Hadoop che consentono di leggere tali formati?Streaming di framework su Hadoop che supportano ORC, formati di file parquet
risposta
È possibile utilizzare HCatalog per leggere il file ORC. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat
Fornisce un'astrazione per leggere file ORC, Testo, Sequenza, RC. Non sono sicuro che ci sia il supporto del parquet lì. Tuttavia, se ciò non sembra ragionevole, è possibile utilizzare i lettori di record ORC nella base del codice Hive per leggere i file ORC (ORCInputFormat, ORCOutputFormat).
Piuttosto vecchie notizie, ma ho faticato con questo qualche tempo fa. Non ho trovato alcuna soluzione per questo, di conseguenza, ho creato una serie di formati di input/output che convertono i file avro e parquet in/da testo normale e json. Può essere trovato a http://github.com/whale2/iow-hadoop-streaming. Non c'è supporto per ORC, ma Avro e Parquet sono supportati. Spero che questo aiuti.