Sono interessato ai set di dati python mining
troppo grandi per stare nella RAM ma seduti in un singolo HD.Strumenti Python per il calcolo out-of-core/data mining
Capisco che posso esportare i dati come file hdf5
, utilizzando pytables
. Inoltre, lo numexpr
consente alcuni calcoli fuori dalla base.
Cosa verrà dopo? Mini-batching quando possibile, e basandosi sui risultati dell'algebra lineare per decomporre il calcolo quando non è possibile utilizzare mini-batching?
Oppure ci sono alcuni strumenti di livello superiore che ho perso?
Grazie per intuizioni,
Grazie per la risposta Denis. Sembra che skilearn abbia strutture mini-batch. In realtà sto cercando il modo più razionale per affrontare l'apprendimento fuori dal core di una sotto mappa: ridurre le dimensioni. In particolare mi sforzo di comprendere i punti di forza relativi di hdf5, sql, nosql. – user17375
La domanda di Zelazny7 sui flussi di dati di grandi dimensioni è migliore perché concreta e ottiene risposte migliori – denis