2012-03-23 7 views
8

Volevo scaricare i dati di espressione genica derivati ​​da esperimenti di microarray. Non ne so molto di questo argomento, ma come ho capito, le righe spesso corrispondono a geni e colonne corrispondono a campioni. idealmente, mi aspetto una matrice di dati di espressione genica.dove posso scaricare i dati di espressione genica?

Ho cercato su internet e sebbene possa sembrare che ci siano molti posti in cui scaricare tali dati, quando effettivamente scarico i dati, non ottengo la matrice dell'espressione genica. qualcuno potrebbe per favore farmi sapere se c'è un posto o come scaricare i dati di espressione genica nel formato che mi aspetto sopra?

qualsiasi aiuto è apprezzato.

+0

Questa domanda non è correlata alla programmazione. Si prega di chiedere su BioStar http://biostar.stackexchange.com/ – gotgenes

+0

@gotgenes grazie! Ho davvero provato a vedere se c'erano altri canali di stackexchange prima di postare qui. ma ora lo so per certo! per fortuna ho ricevuto ottime risposte e il sito appropriato ora. –

risposta

6

Se si guarda ad es. this entry nello Gene Expression Omnibus, uno dei formati di file è "TXT" e contiene una matrice come richiesto, dopo alcuni metadati.

+0

per quel file TXT, sono le colonne (cioè GSM339455, GSM339456, GSM339457, ecc.) E gli esempi di righe? –

+0

sto osservando l'analisi del cluster. sembra che i GSM siano campioni e le file corrispondano ai geni. Potresti spiegare le convenzioni di denominazione? Ad esempio, perché utilizzare GSM per le intestazioni di colonna e quindi 998_at o 9890_at per identificatori di riga? –

+0

I numeri GSM sono identificativi di accesso per i campioni (puoi trovare ogni campione nel GEO con l'id). L '"ID piattaforma serie" elencato nel file è GPL7144, e se interroghi GEO con quell'id, ottieni una mappatura dagli identificatori di riga a vari altri modi di riferirsi ai geni. –

5

In linea di principio i dati di microarray possono essere espressi (scusate il gioco di parole) come una matrice con campioni come colonne e righe come geni. In pratica è un po 'più complicato derivare una tale rappresentazione per i dati grezzi di un esperimento. Se si ottiene un set di dati pre-elaborato, si ha poca garanzia che i dati grezzi siano stati elaborati in modo da renderli comparabili ad altri esperimenti o che i dati grezzi sottostanti fossero di qualità sufficientemente elevata.

Avrete anche bisogno di metadati di alta qualità per ricavare qualsiasi significato dalla matrice di dati. Quali erano le condizioni e le fonti biologiche da cui derivavano i campioni? A quali geni corrispondono le sonde sul particolare array utilizzato? (Si noti che 9890_at è "probeset id", un identificatore univoco di una sonda molecolare di un particolare disegno di sequenza che deve quindi essere mappato a un gene, diverse sonde per lo stesso gene non danno esattamente la stessa risposta)

I database pubblici dei microrarray forniscono quindi molte informazioni aggiuntive oltre a una matrice di dati elaborati. Oltre a GEO che è già stato menzionato, raccomanderei lo ArrayExpress che a mio parere ha un'interfaccia di ricerca migliore.

Lo strumento di scelta per lavorare con i dati di microarray per molti è la suite di software bioconductor per il linguaggio di programmazione statistica R.

Il bioconduttore fornisce API per scaricare dati non elaborati con metadati di accompagnamento da entrambi i repository, vedere GEO bioc package e ArrayExpress bioc package.

Entrambi i pacchetti, in comune con la maggior parte dei software Bioconductor venire con eccellenti "vignette", che introducono il software: GEO bioc vignette e Arrayexpress bioc vignette

Quelle vignette dovrebbe anche fornire esempi di prendere i dati grezzi e derivanti "Esets" (set di espressioni) dai dati grezzi. A quel punto è possibile accedere alla matrice dell'espressione genica nell'oggetto Eset del bioconduttore e si dispone di un oggetto e di API per interrogare i metadati necessari.

Si noti che esistono diversi tipi di microarray. Raccomanderei di iniziare con i dati degli array Affymetrix poiché hanno probabilmente le API di analisi più semplici.

+0

grazie alex, è stato molto utile. apprezzo molto la risposta. –