Ho un file di testo 371 MB contenente dati micro RNA. In sostanza, vorrei selezionare solo le righe che contengono informazioni sul microRNA umano.Selezione di righe in cui una colonna ha una stringa come "hsa .." (corrispondenza stringa parziale)
Ho letto nel file utilizzando read.table. Di solito, realizzo ciò che vorrei con sqldf - se avesse una sintassi simile (selezionare * da <> dove miRNA mi piace 'hsa'). Sfortunatamente - sqldf non supporta quella sintassi.
Come posso farlo in R? Mi sono guardato attorno allo stackoverflow e non vedo un esempio di come posso eseguire una corrispondenza di stringa parziale. Ho persino installato il pacchetto stringr - ma non ha proprio quello di cui ho bisogno.
Che cosa vorrei fare, è qualcosa di simile - dove sono selezionate tutte le righe dove hsa- *.
selectedRows <- conservedData[, conservedData$miRNA %like% "hsa-"]
che, naturalmente, non è la sintassi corretta.
Qualcuno può aiutarmi con questo? Grazie mille per la lettura.
Asda
Puoi pubblicare alcune righe dei tuoi dati, preferibilmente usando qualcosa come 'dput (head (conservedData))'. – A5C1D2H2I1M1N2O1R2T1