Task:
di raggruppare un ampio pool di frammenti di DNA brevi nelle classi che condividono comuni sotto-sequenza-modelli e trovere la sequenza di consenso di ogni classe.grappolo breve, le stringhe omogenei (DNA) in base alle comuni sotto-modelli ed estrarre il consenso delle classi
- Piscina: ca. 300 sequenza frammenti
- 8 - 20 lettere al frammento
- 4 possibili lettere: A, G, T, Z
- ogni frammento è strutturata in tre regioni:
- 5 lettere generici
- 8 o più posizioni di g e
- 5 lettere generiche di c
(come regex che sarebbe[gcta]{5}[gc]{8,}[gcta]{5}
)
: La
per eseguire un allineamento multiplo (cioè withClustalW2) per trovare classi che condividono sequenze comuni nella regione 2 e le loro sequenze di consenso.
Domande:
- sono i miei frammenti troppo breve, e sarebbe aiutare ad aumentare la loro dimensione?
- La regione 2 è troppo omogenea, con solo due tipi di lettere consentite, per mostrare gli schemi nella sequenza?
- Quali metodi o strumenti alternativi puoi suggerire per questa attività?
saluti,
Simon
Questa è una visione molto interessante del genere di cose * la bioinformatica * fa con le sequenze di DNA. Lo manderei in su, ma la freccia dice "questa domanda è utile e chiara", non "questa è una domanda interessante". – pavium
Da dove provengono i tuoi frammenti di DNA e cosa stai cercando di rappresentare? È difficile sapere quanto è breve "troppo breve" senza ulteriori informazioni. Inoltre, cosa stai cercando di rappresentare e cosa intendi con "mostrare schemi nella sequenza?" –
Voglio scoprire se esiste un consenso all'interno delle regioni del GC tra i frammenti. In questo modo posso dire: I frammenti non contengono solo una ripetizione GC, ma la ripetizione GC mostra anche uno schema comune (se effettivamente lo fa). I frammenti sono solo ripetizioni GC casualmente selezionate (più una cornice delle loro 10 basi vicine più vicine, che possono essere ovviamente cambiate o rimosse) dal genoma umano. – SimonSalman