2009-04-07 13 views
1

Ich möchte etwas Text in der Datenbank mit den Django ORM Wrappern speichern. Das Problem ist, dass dieser Text durch das Abschaben von externen Websites generiert wird und oft scheint es, dass sie mit der falschen Kodierung aufgelistet sind. Ich möchte die rohen Bytes speichern, damit ich meine Codierungserkennung im Laufe der Zeit verbessern kann, ohne die Kratzer zu wiederholen. Aber Django scheint alles als Unicode speichern zu wollen. Kann ich das irgendwie umgehen?Wie behandelt man Unicode einer unbekannten Kodierung in Django?

Antwort

1

Sie können beispielsweise Daten speichern, die in base64 codiert sind. Oder versuchen Sie, HTTP-Header aus dem Browser zu analysieren, vielleicht ist es einfacher, von dort die richtige Kodierung zu bekommen.

+0

Einige Prozent der Seiten codieren einfach ihre Daten oder haben eine inkonsistente Codierung auf der Seite. Ich möchte immer noch die Rohdaten speichern, damit ich zurückgehen und es genau sehen kann. – lacker

1

Erstellen Sie eine Datei mit den Daten. Verwenden Sie einen Django models.FileField, um einen Verweis auf die Datei zu halten.

Nein, es beinhaltet nicht eine Tonne I/O. Wenn Ihre Datei klein ist, werden 2 oder 3 E/A's hinzugefügt (das Verzeichnis gelesen, der iNode gelesen und die Daten gelesen).

Verwandte Themen