Sto lavorando a un set di dati di Twitter in R e trovo difficile rimuovere i nomi utente dai tweet.Pattern replace in R
Questo è un esempio dei tweets nella colonna Tweet del mio set di dati:
[1] "@danimottale: 2 bad our inalienable rights offend their sensitivities. U cannot reason with obtuse zealotry. // So very well said."
[2] "@FreeMktMonkey @drleegross Want to build HSA throughout lifetime for when older thus need HDHP not to deplete it if ill before 65y/o.thanks"
Voglio rimuovere/sostituire tutte le parole che iniziano con "@" per ottenere questo output:
[1] "2 bad our inalienable rights offend their sensitivities. U cannot reason with obtuse zealotry. // So very well said."
[2] "Want to build HSA throughout lifetime for when older thus need HDHP not to deplete it if ill before 65y/o.thanks"
Questa funzione di gsub funziona semplicemente rimuovendo il simbolo "@".
Voglio dire, rimuovere i caratteri seguendo il simbolo del testo fino a quando non si incontra uno spazio o un segno di punteggiatura.
ho iniziato cercando di trattare solo con lo spazio, ma senza alcun risultato:
gsub("@.*[:space:]$", "", tweetdata$tweets)
questo rimuove il secondo Tweet interamente
gsub("@.*[:blank:]$", "", tweetdata$tweets)
questo non cambia l'output.
Sarò grato per il vostro aiuto.
Mille grazie - molto utile, peccato non posso votare perché sono nuovo. – user3722736
@ user3722736 È possibile controllare questa soluzione se soddisfa le proprie esigenze facendo clic sul segno di spunta a sinistra sotto il conteggio dei voti. –
Usa 'sub' invece di' gsub' dato che c'è una sola sostituzione. –