Dato è un elenco di 1,5 Gb di dati di panda.che è più veloce per il caricamento: pickle o hdf5 in python
Mi chiedo quale sia un approccio migliore per gestire il caricamento di questi dati: pickle (tramite cPickle), hdf5, o qualcos'altro in python?
In primo luogo, "scaricare" i dati è OK per richiedere molto tempo, lo faccio solo una volta.
Sono anche non interessato alla dimensione del file su disco.
Domanda: Quello che mi preoccupa è la velocità di carico i dati nella memoria il più rapidamente possibile.
Hai provato a misurare questo, nelle tue condizioni specifiche? – pvg
Immagino che pickle sia uno dei peggiori modi per scaricare questi dati :-). Certo, è solo una supposizione. Non ho dati rigidi per il backup. A proposito di dati concreti, perché non fare un esperimento e scoprirlo? – mgilson
Beh, sto postando una domanda, non una risposta, credo;) Posso testare pickle vs hdf5, ma cosa succede se un esperto in questo sito può indirizzarmi verso un metodo molto migliore che rientra in "o qualcos'altro"? :) – denvar