Questa è una domanda relativa alle migliori pratiche per la rappresentazione visiva dei dati e su come disegnare i grafici in R/ggplot2.Disegno di un grafico per rappresentare la separazione successiva in categorie (R, ggplot2)
Sto cercando di trovare un modo per rappresentare graficamente la storia raccontata qui:
"Abbiamo avuto 2000 casi di test, di cui 500 si sono verificati errori Dopo indagini, abbiamo scoperto che 400 dei test erano grandi. e 1600 erano piccoli, solo 25 dei test Big avevano errori, quindi li abbiamo messi da parte, lasciando 1600 piccoli test, di cui 475 errori.Abbiamo scoperto che 400 dei piccoli test erano in senso orario e 1200 erano in senso antiorario, solo 20 dei piccoli test in senso orario hanno avuto errori, quindi li abbiamo messi da parte, lasciando 1200 piccoli test in senso antiorario, di cui 455 hanno avuto errori. "
In altre parole, sto usando le categorie per separare i miei casi di test, e voglio rappresentare come la frazione di errori in ogni categoria cambia con i miei progressi.
Ecco alcuni R con i dati:
tests <- data.frame(n.all=c(2000,400,1600,400,1200),n.err=c(500,25,475,20,455),sep.1=as.factor(c("all","Big","Small","Small","Small")),sep.2=as.factor(c("all","all","all","Clockwise","Counter-Clockwise")))
Con questa piccola quantità di dati, una semplice tabella numerica potrebbe essere la scelta migliore; supponiamo che la storia continui, con sempre più categorie di separazione utilizzate, in modo che semplicemente elencare i numeri non sia la scelta migliore.
Quale sarebbe un buon modo per rappresentare questi dati? Mi vengono in mente un paio di possibilità:
- grafici a torta, che mostrano le fette di torta di essere portati via, e la ripartizione degli errori/errori in ciò che resta
- Bar grafici, simile
- grafici a barre con nastri mostrano il "flusso" di separazione lontano categorie, come Minard's chart of Napoleon's march
- simili, ma con i grafici a barre che mostrano le frazioni orizzontalmente anziché verticalmente
Tutti e quattro i metodi mostrano la quantità assoluta di casi di test decrescenti e la frazione di errori nella categoria separata e ciò che rimane. Penso che mi piaccia il n. 4, ma ho una mente aperta.
Come dovrebbe essere rappresentato questo tipo di dati e R/ggplot2 può essere utilizzato per farlo?
Guarda il pacchetto 'vcd'. Ma detto questo penso che questa non sia una buona domanda per SO. –
Penso che questa sia una domanda interessante, ma concordo sul fatto che potrebbe essere un po 'troppo aperto per StackOverflow. CrossValidated a volte accoglie anche domande di visualizzazione dei dati più concettuali rispetto alla programmazione. Potrei chiederlo in chat o qualcosa prima di chiederlo, solo per essere sicuro. – joran
Sì, una volta che sai quale visualizzazione desideri, portala indietro se hai difficoltà con il codice – alexwhan