Sto provando a utilizzare il pacchetto tm in R per eseguire alcune analisi del testo. Ho legato il seguente:R tm pacchetto input non valido in 'utf8towcs'
require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)�lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
Il problema è che alcuni caratteri non sono validi. Vorrei escludere i caratteri non validi dall'analisi dall'interno di R o prima di importare i file per l'elaborazione.
Ho provato ad utilizzare iconv per convertire tutti i file in UTF-8 ed escludere tutto ciò che non può essere convertito in che modo seguente:
find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \;
come sottolineato qui Batch convert latin-1 files to utf-8 using iconv
Ma ho ancora ottenere lo stesso errore.
Apprezzerei qualsiasi aiuto.
Grazie per la tua risposta Ben! Per qualche ragione, quella stessa riga di codice che non funziona per me funziona ora. Non so se questa è un'altra fortunata coincidenza :) Non ho cambiato nulla, solo rieseguo e questa volta funziona senza intoppi. – maiaini
Felice di sentire che hai funzionato! – Ben