2009-10-02 12 views
5

Task:
di raggruppare un ampio pool di frammenti di DNA brevi nelle classi che condividono comuni sotto-sequenza-modelli e trovere la sequenza di consenso di ogni classe.grappolo breve, le stringhe omogenei (DNA) in base alle comuni sotto-modelli ed estrarre il consenso delle classi

  • Piscina: ca. 300 sequenza frammenti
  • 8 - 20 lettere al frammento
  • 4 possibili lettere: A, G, T, Z
  • ogni frammento è strutturata in tre regioni:
    1. 5 lettere generici
    2. 8 o più posizioni di g e
    3. 5 lettere generiche di c
      (come regex che sarebbe [gcta]{5}[gc]{8,}[gcta]{5})

: La
per eseguire un allineamento multiplo (cioè withClustalW2) per trovare classi che condividono sequenze comuni nella regione 2 e le loro sequenze di consenso.

Domande:

  1. sono i miei frammenti troppo breve, e sarebbe aiutare ad aumentare la loro dimensione?
  2. La regione 2 è troppo omogenea, con solo due tipi di lettere consentite, per mostrare gli schemi nella sequenza?
  3. Quali metodi o strumenti alternativi puoi suggerire per questa attività?

saluti,

Simon

+0

Questa è una visione molto interessante del genere di cose * la bioinformatica * fa con le sequenze di DNA. Lo manderei in su, ma la freccia dice "questa domanda è utile e chiara", non "questa è una domanda interessante". – pavium

+0

Da dove provengono i tuoi frammenti di DNA e cosa stai cercando di rappresentare? È difficile sapere quanto è breve "troppo breve" senza ulteriori informazioni. Inoltre, cosa stai cercando di rappresentare e cosa intendi con "mostrare schemi nella sequenza?" –

+0

Voglio scoprire se esiste un consenso all'interno delle regioni del GC tra i frammenti. In questo modo posso dire: I frammenti non contengono solo una ripetizione GC, ma la ripetizione GC mostra anche uno schema comune (se effettivamente lo fa). I frammenti sono solo ripetizioni GC casualmente selezionate (più una cornice delle loro 10 basi vicine più vicine, che possono essere ovviamente cambiate o rimosse) dal genoma umano. – SimonSalman

risposta

1

regione due, con le lettere 2, possono finire un po 'troppo simile, l'aumento della lunghezza o della variabilità (ad esempio più lettere) potrebbe aiutare.

2

Sì, 300 è TROPPO POCO considerando che questo è il genoma umano e in sostanza stai solo cercando un particolare 8-mer. Ci sono 65.536 possibili 8-mers e 3.000.000.000 basi uniche nel genoma (supponendo che tu stia osservando l'intero genoma e non solo le regioni geniche o codificanti). Troverai sequenze contenenti G/C 3.000.000.000/65.536 * 2^8 = ~ 12.000.000 di volte (e probabilmente molto di più poiché il genoma è pieno di isole CpG rispetto ad altre cose). Perché scegliere solo 300?

Non si desidera utilizzare regex per questa attività. Basta iniziare dal cromosoma 1, cercare il primo CG o GC ed estendersi fino ad ottenere il primo non-G o C. Quindi prendi quella sequenza, il suo contesto e salvala (in un DB). Risciacqua e ripeti.

Per questo progetto, Clustal potrebbe essere eccessivo, ma non conosco i tuoi obiettivi quindi non posso esserne sicuro. Se siete interessati solo nella regione GC, allora si può fare qualche semplice di clustering in questo modo:

  1. Fai una voce di database per ogni/C 8-mer G (2^8 = 256 in tutto).
  2. Prendere ciascuna regione GC e percorrerla per vedere quali 8-mers contiene.
  3. Contrassegna ciascuna regione GC con le sequenze che contiene.

Ora, per ogni 8-mer, si dispone di migliaia di sequenze che lo contengono. Lascerò l'analisi dei dati fino ai tuoi obiettivi.

+0

sembra un approccio che dovrei provare :) – SimonSalman

+0

Che cosa stai cercando di scoprire esattamente? –