Esplorazione di un nuovo set di dati: qual è il modo più semplice e veloce per visualizzare molte (tutte) variabili?Come posso creare un istogramma per tutte le variabili in un set di dati con uno sforzo minimo in R?
Idealmente, l'output mostra gli istogrammi uno accanto all'altro con un minimo di confusione e informazioni massime. La chiave di questa domanda è la flessibilità e la stabilità per gestire insiemi di dati ampi e diversi. Sto usando RStudio e di solito gestisco dati di sondaggi grandi e disordinati.
Un esempio che viene fuori dalla scatola di Hmisc
e funziona abbastanza bene qui è:
library(ggplot2)
str(mpg)
library(Hmisc)
hist.data.frame(mpg)
Purtroppo, da qualche altra parte mi imbatto in problemi con etichette di dati (errore in plot.new(): i margini di figura troppo grande). Si è anche arrestato inaspettatamente per un set di dati più grande di e non ho capito come controllare il binning. Inoltre, preferirei una soluzione flessibile in ggplot2
. Si noti che ho appena iniziato a studiare R e sono abituato alle soluzioni comode fornite dal software commerciale.
Altre domande su questo argomento:
R histogram - too many variables
...?
Fare un grafico per ogni variabile in un set di dati va bene per un piccolo set di dati, ma è semplicemente una terribile idea se si hanno 3000 variabili. La risposta corretta in tal caso è "Non farlo". – joran
Ovviamente no; quello era solo un esempio di "disordinato". – Rico
Apprezzo lo sforzo che hai fatto qui, ma la tua domanda semplicemente non sta descrivendo un problema di programmazione concreto e specifico. Invece, sembra molto simile a qualcosa che porterà a risposte sconnesse con varie raccomandazioni, piuttosto che una risposta chiara. Infatti, quando leggo la tua risposta, sono più confuso su quali siano i tuoi criteri rispetto a prima. – joran