Sto analizzando centinaia di milioni di record JSON e memorizzando i componenti rilevanti da ciascuno in un dict
. Il problema è che a causa del numero di record che sto elaborando, Python è costretto ad aumentare le dimensioni della tabella hash sottostante di dict
più volte. Ciò si traduce in un MOLTO di dati che devono essere riutilizzati. L'enorme quantità di rilocalizzazione sembra costare molto tempo. Pertanto, mi chiedo se c'è un modo per impostare una dimensione minima sulla tabella hash sottostante di dict
in modo che il numero di operazioni di ridimensionamento sia ridotto al minimo.python dict set min_size
Ho letto this sull'ottimizzazione pitone di dict
, da una risposta su this question, ma non riesco a trovare il modo di cambiare la dimensione iniziale di 's un dict
tabella hash. Se qualcuno mi può aiutare con questo, sarei molto grato.
Grazie
Certo, questo mi fa la taglia giusta. Ma non mi dà le chiavi giuste. Dovrei cancellare tutte le 'n' molte chiavi e ripopolare con quelle corrette, mentre elaboro ogni record JSON. Non sarebbe lento? – inspectorG4dget
Dovrebbe aiutare con la velocità. Scrivi un piccolo test che lo faccia. Creerà un dettato di una dimensione nota con tutti i valori che hanno come valore predefinito Nessuno o un valore di tua scelta –
Non esiste una soluzione più ordinata rispetto alla struttura artificiale che genera la struttura dei dati con i valori indesiderati? :( – comiventor