Ich scrapping einfache Textdateien von einer URL.urlopen erstickt mich mit Zeilenumbrüchen
def scrape_contents_ex(url):
data = urllib2.urlopen(url)
return data.read()
Das Problem ist, dass die Zeichenfolge es ergibt sich mit Neuen-Zeile und Tabulatoren "\ t" erstickt "\ r" usw.
Beispiel:
Wenn ich String Ausgabe in python zu drucken, macht es mit verschiedenen \ Zeichen:
Ich weiß nicht, wie man die Ausgabe, die ich von urlopen lese, richtig handhabe. Ich möchte diese Inhalte in postgresql speichern. Außerdem habe ich eine weitere Komplikation, bei der der Inhalt höchstwahrscheinlich Unicode-Ergebnisse ergibt (chinesische Schriftzeichen, kyrillisch usw.).
Was ist der richtige und robuste Weg, dies zu lesen und zu speichern?
völlig unabhängig, was fragte Sie, aber ich fand die Anfragen Bibliothek viel besser zu sein als urllib2. – ajthyng