Sono molto nuovo con R, quindi spero di poter ottenere alcuni suggerimenti su come ottenere la manipolazione desiderata dei miei dati.R: suddivisione del set di dati in quartili/decili. Qual è il metodo giusto?
Ho una matrice di dati con tre variabili.
gene_id fpkm meth_val
1 100629094 0.000 0.0063
2 100628995 0.000 0.0000
3 102655614 111.406 0.0021
vorrei tracciare la meth_val media dopo stratificazione miei gene_ids sulla base di fpkm in quartili o decili.
Una volta che carico i miei dati in un dataframe ...
data <- read.delim("myfile.tsv", sep='\t')
posso determinare il fpkm decili utilizzando:
quantile(data$fpkm, prob = seq(0, 1, length = 11), type = 5
che produce
0% 10% 20% 30% 40% 50%
0.000000e+00 9.783032e-01 7.566164e+00 3.667630e+01 1.379986e+02 3.076280e+02
60% 70% 80% 90% 100%
5.470552e+02 8.875592e+02 1.486200e+03 2.974264e+03 1.958740e+05
Da lì, ho 'Mi piacerebbe dividere in due il dataframe in 10 gruppi in base al fatto che fpkm_val si adatti a uno di questi decili. Poi mi piacerebbe tracciare il meth_val di ogni decile in ggplot come un diagramma a riquadri ed eseguire un test statistico attraverso i decili.
La cosa principale su cui sono davvero bloccato è come suddividere il set di dati nel modo corretto. Qualsiasi assistenza sarebbe molto apprezzata!
Grazie mille!
Utilizzare la funzione di taglio in R con l'argomento di interruzione impostato sui quantili. Ecco una domanda simile Q & A http://stackoverflow.com/questions/11728419/using-cut-and-quartile-to-generate-breaks-in-r-function – technOslerphile