Sto implementando una libreria di cross-tabulation in Python come esercizio di programmazione per il mio nuovo lavoro e ho un'implementazione dei requisiti che funziona ma è inelegante e ridondante. Mi piacerebbe un modello migliore per questo, qualcosa che permetta un movimento di dati bello e pulito tra il modello base, memorizzato come dati tabulari in file flat e tutti i risultati delle analisi statistiche che potrebbero essere chiesti a questo.Qual è un buon modello di dati per la tabulazione incrociata?
In questo momento, ho una progressione da una serie di tuple per ogni riga nella tabella, a un istogramma che conta le frequenze delle apparizioni delle tuple di interesse, a un serializzatore che - in modo maldestro - compila il output in un set di celle di tabella per la visualizzazione. Tuttavia, finisco per dover tornare al tavolo o all'istogramma più spesso di quanto voglio perché non ci sono mai abbastanza informazioni sul posto.
Quindi, qualche idea?
Edit: Ecco un esempio di alcuni dati, e quello che voglio essere in grado di costruire da esso. Nota che "." denota un po 'di dati' mancanti ', che sono contati solo condizionatamente .
1 . 1
1 0 3
1 0 3
1 2 3
2 . 1
2 0 .
2 2 2
2 2 4
2 2 .
Se io stavamo cercando la correlazione tra le colonne 0 e 2 di cui sopra, questo è il tavolo che avrei dovuto:
. 1 2 3 4
1 0 1 0 3 0
2 2 1 1 0 1
Inoltre, avrei voluto essere in grado di calcolare il rapporto di frequenza/totale, frequenza/subtotale, & c.
Non è molto chiaro per me quello che stai cercando di fare. Puoi descrivere i requisiti o dare un esempio con alcuni dati e mostrare le trasformazioni che vuoi fare? –
In questo esempio è meglio scrivere in ordine di colonna principale. – jonnii
jonnii, non sono un gran esperto di statistica; puoi chiarire cosa intendi con questo? –