Sto provando a popolare l'oggetto filmato, ma durante l'analisi attraverso il file u.item
ottengo questo errore:Rubino `split ': sequenza di byte non valida in UTF-8 (ArgumentError)
`split': invalid byte sequence in UTF-8 (ArgumentError)
File.open("Data/u.item", "r") do |infile|
while line = infile.gets
line = line.split("|")
end
end
Il l'errore si verifica solo quando si tenta di dividere le linee con una fantasia punteggiatura internazionale.
Qui c'è un esempio
543|Misérables, Les (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Mis%E9rables%2C%20Les%20%281995%29|0|0|0|0|0|0|0|0|1|0|0|0|1|0|0|0|0|0|0
è un lavoro in giro ??
Cosa significa 'od -c' dire circa la linea di domanda? –
Funziona per me con il corpus come pubblicato. @ IgnacioVazquez-Abrams ha probabilmente ragione: devi usare un editor esadecimale per vedere se hai caratteri nascosti nel tuo file di dati. –