2014-11-03 6 views
7

Ich helfe einem Freund, Inhalte zu einer älteren Website hinzuzufügen, die in etwas wie FrontPage geschrieben wurde. Jedoch habe ich ein HTML-Dokument, das mit "unbekannt-8bit" Zeichensatz codiert ist. Brackets.io, an dem ich arbeite, unterstützt nur UTF-8, daher kann ich das Dokument nicht öffnen und erneut in der richtigen Kodierung speichern."Unknown-8bit" -Zeichensatz in UTF-8 konvertieren

Wie würde ich diese Datei in UTF-8 umwandeln, damit ich dann in eckigen Klammern damit arbeiten kann?

Ich benutze OS X 10.10 Yosemite, also bin ich ein bisschen begrenzter als wenn ich auf Windows saß (Notepad ++ kommt mir in den Sinn).

Nach google'ing einige habe ich versucht, im Terminal, aber "unbekannt-8bit" wird nicht unterstützt.

iconv -f unknown-8bit -t utf-8 filename.html > newfilename.html 

Hilfe wäre sehr willkommen.

+1

'unknown-8it' ist nicht so sehr eine Kodierung als ein Hinweis darauf, dass der Kodierdetektor aufgab: Es ist relativ sicher, dass es eine 8bit-Kodierung ist (wie fast alle), aber keine Indikatoren zur Verfügung stehen. Probieren Sie einen anderen Detektor aus. Sie können sogar Ihren Browser verwenden und die Codierung ändern, bis sie richtig aussieht. – Deduplicator

Antwort

5

Sie können enca oder chardet verwenden, enca wird wahrscheinlich erfolgreicher sein.

Wenn Sie die Sprache das Dokument geschrieben wurde, in kennen, können Sie die Codierung erraten und versuchen, konvertieren, bis Sie die richtigen Ergebnisse erhalten:

  • Englisch, Französisch, Deutsch, Spanisch ... - in der Regel von Windows -1252

  • Russisch, Ukrainisch ... - in der Regel von Windows-1251

  • Polnisch, Tschechisch, Ungarisch ... - in der Regel von Windows-1250 oder ISO-8859-2

  • Japanisch - in der Regel Shift-JIS

und so weiter.

+1

Danke, das hat mir sehr geholfen! Die Sprache des Dokuments ist Schwedisch, also habe ich versucht, 'ISO-8859-1' zu verwenden. Das Dokument wurde erfolgreich in UTF-8 konvertiert, jedoch wurden die schwedischen Zeichen falsch konvertiert. Es wird für mich schneller sein, dieses tho manuell zu bearbeiten und dann zu versuchen, die richtige ursprüngliche Kodierung zu finden. – obfuse

Verwandte Themen