Come posso inserire la directory di sovrascrittura con lo schema json?HIVE inserisce la directory di sovrascrittura con il formato json
C'è un avro table raw raw; (questo è in realtà ha molti campi)
tb_test--------
name string
kickname string
-----------------
poi voglio salvare risultato di una query in qualche directory in HDFS per jsonserde.
Ho provato questo.
insert overwrite directory '/json/'
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
WITH SERDEPROPERTIES (
"stat_name"="$._col0",
"stat_interval"="$._col1"
)
STORED AS TEXTFILE
select name, nickname
from tb_test limit 100
ma scritto in JSON/JSON/ha _colXX nome del campo al posto del nome del campo di origine.
{"_col0":"basic_qv"," _col1":"h"}
{"_col0":"basic_qv","_col1 ":"h"}
{"_col0":"basic_qv","_col1 ":"h"}
{"_col0":"basic_qv"," _col1":"h"}
{"_col0":"basic_qv","_col1 ":"h"}
mi aspettavo
{"name":"basic_qv","nickname":"h"}
{"name":"basic_qv","nickname":"h"}
{"name":"basic_qv","nickname":"h"}
{"name":"basic_qv","nickname":"h"}
{"name":"basic_qv","nickname":"h"}
Cosa aiutare questo?
Grazie !!
Sono di fronte a un problema simile con il formato AVRO. Hai trovato la soluzione? Per favore fatemi sapere se conoscete qualche soluzione alternativa. – Munesh
è in formato avro output o formato tabella? Non sono riuscito a trovare soluzioni alternative per l'alveare. Invece l'ho fatto per scintilla. Eseguire spark sql quindi esportare dataframe come json. scintilla supporto vari formati di esportazione in una natura. –
AVRO è il formato file di output richiesto. Sì, Spark è una buona soluzione. – Munesh