In linea di principio i dati di microarray possono essere espressi (scusate il gioco di parole) come una matrice con campioni come colonne e righe come geni. In pratica è un po 'più complicato derivare una tale rappresentazione per i dati grezzi di un esperimento. Se si ottiene un set di dati pre-elaborato, si ha poca garanzia che i dati grezzi siano stati elaborati in modo da renderli comparabili ad altri esperimenti o che i dati grezzi sottostanti fossero di qualità sufficientemente elevata.
Avrete anche bisogno di metadati di alta qualità per ricavare qualsiasi significato dalla matrice di dati. Quali erano le condizioni e le fonti biologiche da cui derivavano i campioni? A quali geni corrispondono le sonde sul particolare array utilizzato? (Si noti che 9890_at è "probeset id", un identificatore univoco di una sonda molecolare di un particolare disegno di sequenza che deve quindi essere mappato a un gene, diverse sonde per lo stesso gene non danno esattamente la stessa risposta)
I database pubblici dei microrarray forniscono quindi molte informazioni aggiuntive oltre a una matrice di dati elaborati. Oltre a GEO che è già stato menzionato, raccomanderei lo ArrayExpress che a mio parere ha un'interfaccia di ricerca migliore.
Lo strumento di scelta per lavorare con i dati di microarray per molti è la suite di software bioconductor per il linguaggio di programmazione statistica R.
Il bioconduttore fornisce API per scaricare dati non elaborati con metadati di accompagnamento da entrambi i repository, vedere GEO bioc package e ArrayExpress bioc package.
Entrambi i pacchetti, in comune con la maggior parte dei software Bioconductor venire con eccellenti "vignette", che introducono il software: GEO bioc vignette e Arrayexpress bioc vignette
Quelle vignette dovrebbe anche fornire esempi di prendere i dati grezzi e derivanti "Esets" (set di espressioni) dai dati grezzi. A quel punto è possibile accedere alla matrice dell'espressione genica nell'oggetto Eset del bioconduttore e si dispone di un oggetto e di API per interrogare i metadati necessari.
Si noti che esistono diversi tipi di microarray. Raccomanderei di iniziare con i dati degli array Affymetrix poiché hanno probabilmente le API di analisi più semplici.
fonte
2012-03-23 15:00:52
Questa domanda non è correlata alla programmazione. Si prega di chiedere su BioStar http://biostar.stackexchange.com/ – gotgenes
@gotgenes grazie! Ho davvero provato a vedere se c'erano altri canali di stackexchange prima di postare qui. ma ora lo so per certo! per fortuna ho ricevuto ottime risposte e il sito appropriato ora. –