Ho cercato di individuare un modo per selezionare linee univoche in base ai valori di due colonne. Ad esempio, ecco un campione/esempio di mio file:Selezione di linee univoche basate su due colonne
chr1 10 12
chr1 10 12
chr1 10 11
chr1 9 12
chr2 15 20
E questo è ciò che voglio la mia uscita a guardare come:
chr1 10 12
chr1 10 11
chr1 9 12
chr2 15 20
Ho cercato di utilizzare questo codice, perché mi piace come lo fa non si scherza con l'ordine del mio file:
awk -F"\t" '!_[$2]++' SNP_positions.txt > SNP_positions_uniq.txt
Tuttavia, si coglie solo caratteristiche uniche di una colonna. C'è un modo per modificare questo per farlo funzionare per due colonne?
hai citato due colonne ma ce ne sono tre nel tuo file. Quali dovrebbero essere considerati? Fornisci un esempio più generico, se possibile. Il tuo attuale approccio funziona per il file dato, quindi potrebbe esserci qualcos'altro. – fedorqui
Voglio trovare linee che abbiano valori univoci in entrambe le colonne due e tre. Se avessi usato il codice sopra la mia uscita non mi avrebbe dato la 3a riga nella mia uscita (chr1 122332 130204). Modificherò per renderlo più semplice – cosmictypist
Chiunque ti abbia detto di usare '_' come nome di variabile è un idiota, non ascoltarli più. Sappiamo tutti che i nomi delle variabili a lettera singola sono meglio evitati in generale, poiché non fanno nulla per migliorare la chiarezza del codice, ma l'uso di qualcosa che non è nemmeno una lettera è semplicemente ridicolo. –