Wie behandelt man Unicode einer unbekannten Kodierung in Django?

Ich möchte etwas Text in der Datenbank mit den Django ORM Wrappern speichern. Das Problem ist, dass dieser Text durch das Abschaben von externen Websites generiert wird und oft scheint es, dass sie mit der falschen Kodierung aufgelistet sind. Ich möchte die rohen Bytes speichern, damit ich meine Codierungserkennung im Laufe der Zeit verbessern kann, ohne die Kratzer zu wiederholen. Aber Django scheint alles als Unicode speichern zu wollen. Kann ich das irgendwie umgehen?Wie behandelt man Unicode einer unbekannten Kodierung in Django?

Quelle

2009-04-07 lacker

Sie können beispielsweise Daten speichern, die in base64 codiert sind. Oder versuchen Sie, HTTP-Header aus dem Browser zu analysieren, vielleicht ist es einfacher, von dort die richtige Kodierung zu bekommen.

Quelle

2009-04-07 10:18:10

Einige Prozent der Seiten codieren einfach ihre Daten oder haben eine inkonsistente Codierung auf der Seite. Ich möchte immer noch die Rohdaten speichern, damit ich zurückgehen und es genau sehen kann. – lacker

Erstellen Sie eine Datei mit den Daten. Verwenden Sie einen Django models.FileField, um einen Verweis auf die Datei zu halten.

Nein, es beinhaltet nicht eine Tonne I/O. Wenn Ihre Datei klein ist, werden 2 oder 3 E/A's hinzugefügt (das Verzeichnis gelesen, der iNode gelesen und die Daten gelesen).

Quelle

2009-04-07 10:20:20

Wie behandelt man Unicode einer unbekannten Kodierung in Django?

Antwort

Verwandte Themen