Sto tentando di analizzare una data da una stringa di testo. Sto assumendo che il modo migliore per farlo sia regex, ma non ho ancora trovato una soluzione che funzioni.Data di analisi nel formato Mon, DD, YYYY utilizzando RegEx in R
In primo luogo, ho usato un selettore CSS per prendere una data da un sito web.
date <-html_nodes(x=doc, css=".middleheadline+ .topnewsbar b") %>% html_text()
Questo produce:
[1] "\r\n Washington,\r\n Jan 5, 2011"
Voglio estrarre dalla data stessa (qui, 5 Gennaio 2011) da questa stringa. NOTA: il mese può essere qualsiasi mese, la data può essere qualsiasi data, e l'anno può essere qualsiasi cosa dal 2011-2015, quindi sto cercando di trovare un'espressione che può generalmente analizzare una data nel Mon D [D], Formato YYYY.
Ecco un tentativo:
date <-str_extract_all(string=date, pattern='[A-Z][a-z]{3,4} ([0-9]{1,2}), [0-9]{4}')
Questo produce character(0)
E un altro:
grep("[A-Z][a-z]{3,4} ([0-9]{1,2}), [0-9]{4}", date, value=TRUE)
che produce anche character(0)
Qualche consiglio?
forse 'grep (" \\ w {3,4} \\ d {1,2}, \\ d {4}, data, valore = TRUE) 'Non ho ancora provato questo. \\ tag W' corrisponderà caratteri alfabetici, il '\\ d' tag corrisponde cifre. – Benjamin
è la data sempre alla fine della stringa, o sempre dopo l'ultimo' "\ r \ n" '? –
sono d'accordo con implicazione di Joshua che abbiamo bisogno di maggiori informazioni su come apparirà l'input - non solo su come sarà la data. La conversione in un tipo di data reale è abbastanza facile purché possiamo identificare l'input e se è sempre alla fine del stringa di input quindi che lo rende * veramente * facile – Dason