Ich versuche, den Film-Objekt zu füllen, aber wenn es durch die u.item
Datei Parsen bekomme ich diesen Fehler:Rubin `split ': ungültige Bytefolge in UTF-8 (Argument)
`split': invalid byte sequence in UTF-8 (ArgumentError)
File.open("Data/u.item", "r") do |infile|
while line = infile.gets
line = line.split("|")
end
end
Die Fehler tritt nur auf, wenn versucht wird, die Zeilen mit internationaler Interpunktion zu trennen.
Hier ist eine Probe
543|Misérables, Les (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Mis%E9rables%2C%20Les%20%281995%29|0|0|0|0|0|0|0|0|1|0|0|0|1|0|0|0|0|0|0
Gibt es eine Arbeit um ??
Was od tut '-c' über die Linie sagen Frage? –
Es funktioniert bei mir mit dem Korpus wie gepostet. @ IgnacioVazquez-Abrams ist wahrscheinlich richtig: Sie müssen einen Hex-Editor verwenden, um zu sehen, ob Sie versteckte Zeichen in Ihrer Datendatei haben. –