Come leggere parquet partizionato con condizioni come dataframe,Lettura dataframe da file parquet partizionata
questo funziona bene,
val dataframe = sqlContext.read.parquet("file:///home/msoproj/dev_data/dev_output/aln/partitions/data=jDD/year=2015/month=10/day=25/*")
partizione è lì per day=1 to day=30
è possibile leggere qualcosa di simile (day = 5 to 6)
o day=5,day=6
,
val dataframe = sqlContext.read.parquet("file:///home/msoproj/dev_data/dev_output/aln/partitions/data=jDD/year=2015/month=10/day=??/*")
Se metto *
mi dà tutti i 30 giorni di dati ed è troppo grande.
Innanzitutto grazie per la risposta, che stavo cercando il modo più semplice. Nel caso in cui circa 20 giorni come sottoinsieme in questo modo sarà un po 'difficile. Vorrei filtrare spesso per verificare l'accuratezza dei dati. – WoodChopper
Allora perché non fare semplicemente 'val dataframe = sqlContext.read.parquet (" file: /// tuo/percorso/dati = jDD/anno = 2015/mese = 10/")? 'day' viene aggiunto come colonna nel dataframe, che è possibile filtrare. –
In realtà, i dati sono davvero enormi. I dati vanno dal 2007 al 2015. Su una media di 5 miliardi di righe di log grezzi vengono elaborati e archiviati. Mi verrebbe richiesto un particolare rapporto dati su richiesta – WoodChopper