Ich bin sehr neu in Python Scripting, aber ich habe eine sehr einfache Aufgabe, die ich gerne ausführen würde, aber ich halte mich fest daran. Ich versuche nur, Daten aus einer TXT-Datei zu lesen und zu parsen.Unicode Decode Fehler beim Lesen von Daten aus einer TXT-Datei in Python
Schritte ich genommen habe
- ich die pdf-Datei von meiner Schulen Website heruntergeladen haben, enthält es eine Liste der Kurse http://info.sjsu.edu/cgi-bin/pdfserv?ftok=soc-fall-courses
- ich die pdf-Datei in eine TXT-Datei einfach umgewandelt durch Speichern es als TXT-Datei, um herauszufinden,
- die Fehler gegoogelt, dass es irgendeine Art von Codierung Ausgabe
- die Terminal-Befehl Datei -I [Dateinamen] verwendet wird, und das Ergebnis zurückgegeben
sjsuclassdata.txt: text/plain; charset=unknown-8bit
- Online viele Methoden verwendet, um zu versuchen, die Datei in einer UTF-8-Codierung zu konvertieren, aber ohne Erfolg
Fehlermeldung, die ich
Traceback (most recent call last):
File "/Users/edward/MyPythonScripts/sjsuClassExtractor.py", line 25, in <module>
regexMatches = lectureRegex.findall(file.read())
File "/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/codecs.py", line 321, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd0 in position 9: invalid continuation byte
So bekam wie Sie sehen können, Ich bin wirklich verloren, was ich von hier aus tun soll. Ich habe bestätigt, dass alles funktioniert, wenn ich eine andere Datei lese, die ähnliche Daten enthält.
„Ich konvertiert die PDF-Datei in eine .txt Datei einfach durch Speichern als .txt-Datei "Haben Sie versucht, diese Datei mit einem Texteditor zu lesen? Denn so wandeln Sie eine PDF-Datei nicht in eine Textdatei um. –
@Rightleg Sie können eine PDF-Datei in Acrobat Reader und "Speichern unter" als TXT-Datei öffnen. Es wird eine korrekte (wenn auch nicht UTF-8-codierte) Textdatei erzeugen. Beachten Sie, wie OP "Speichern unter" sagt und nicht "umbenennen". – Selcuk
@Selcuk Oh mein Schlechter, ich verstand es als "außer dem Netz als .txt". Weißt du, wenn ich das gesagt habe, dann weil ich viele Leute gesehen habe, die meinen, Umbenennen sei gleichbedeutend mit Konvertieren ... –