Sto tentando di riepilogare i dati da un'indagine sulle famiglie e in quanto tale la maggior parte dei miei dati sono dati categoriali (fattore). Stavo cercando di sintetizzarlo con grafici delle risposte alle domande (ad esempio, un grafico a barre di percentuali di famiglie che rispondono a determinate domande, con barre di errore che mostrano intervalli di confidenza). Ho trovato questo eccellente tutorial che avevo pensato fosse la risposta alle mie preghiere (http://www.cookbook-r.com/Manipulating_data/Summarizing_data/) ma risulta che questo aiuterà solo con dati continui.R proporzionale intervallo fattore di confidenza
Quello che mi serve è qualcosa di simile che mi permetterà di calcolare le proporzioni di conteggi e gli errori standard/intervalli di confidenza di queste proporzioni.
In sostanza voglio essere in grado di produrre tabelle riassuntive che assomigliano a questo per ciascuna delle domande poste nel mio dati di rilievo:
# X5employf X5employff N(count) proportion SE of prop. ci of prop
# 1 1 20 0.64516129 ? ?
# 1 2 1 0.03225806 ? ?
# 1 3 9 0.29032258 ? ?
# 1 NA 1 0.290322581 ? ?
# 2 4 1 0.1 ? ?
structure(list(X5employf = structure(c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L), .Label = c("1", "2", "3"), class = "factor"), X5employff = structure(c(1L, 2L, 3L, NA, 4L, 5L, 6L, 7L, 8L, 4L, 5L, 6L, 7L), .Label = c("1", "2", "3", "4", "5", "6", "7", "8"), class = "factor"), count = c(20L, 1L, 9L, 1L, 1L, 5L, 2L, 1L, 1L, 4L, 5L, 4L, 1L)), .Names = c("X5employf", "X5employff", "count"), row.names = c(NA, -13L), class = "data.frame")
Vorrei quindi voler tracciare barplots in ggplot (o simile) utilizzando questi dati di riepilogo con barre di errore che mostrano gli intervalli di confidenza.
Avevo pensato di modificare il codice fornito nel tutorial sopra per calcolare le colonne sopra, anche se come un nuovo arrivato relativamente a R, sto lottando un po '! Ho avuto modo di sperimentare con il pacchetto ggply ma non così grande sulla sintassi così sono riuscito a ottenere, per quanto questo con il seguente codice:
> X5employ_props <- ddply(X5employ_counts, .(X5employf), transform, prop=count/sum(count))
Ma io alla fine con questo:
X5employf X5employff count prop
1 1 1 20 1.0000000
2 1 2 1 1.0000000
3 1 3 9 1.0000000
4 2 4 1 0.2000000
5 3 4 4 0.8000000
6 2 5 5 0.5000000
7 3 5 5 0.5000000
8 2 6 2 0.3333333
9 3 6 4 0.6666667
10 2 7 1 0.5000000
11 3 7 1 0.5000000
12 2 8 1 1.0000000
13 1 <NA> 1 1.0000000
Con tutte le proporzioni essendo 1, presumibilmente perché vengono calcolati tutti righe e non colonne
ho chiesto se qualcuno potrebbe aiutare o sa di pacchetti/codice che farebbe il lavoro per me!
Sei a conoscenza di http://docs.ggplot2.org/current/geom_errorbar.html? Puoi tracciare un barattare con un argomento 'stat =" identity "', vedi http://docs.ggplot2.org/current/geom_bar.html per ulteriori dettagli. Per ottenere una risposta migliore, ti suggerisco di fornirci alcuni dati riproducibili. –
Ciao romano, sì, ho letto la documentazione di ggplot2 su geom_errorbar e ho già prodotto i miei grafici a barre. Tuttavia, geom_errorbar richiede di specificare i limiti per tracciare le barre di errore: ecco perché sto cercando di riassumere i miei dati per primi. Idealmente, sto cercando un modo per automatizzare questo dato che ho 49 variabili. –
i primi tre vettori intero '1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55' factor1 '1 3 1 1 1 3 1 1 1 3 1 1 1 2 2 3 3 3 1 2 2 2 2 1 1 1 3 3 3 3 3 3 2 1 1 3 1 3 2 1 1 1 1 1 1 1 1 1 1 1 1 1 2' factor2 '1 4 1 2 4 3 1 1 6 1 1 1 5 5 6 7 5 1 6 6 7 5 4 1 3 1 6 5 5 5 6 4 5 3 3 5 1 4 5 1 1 1 1 1 3 3 3 1 3 1 1 1 3 8' –