Ich benutze Python, um Inhalte einer Webseite zu extrahieren. Der HTML-Inhalt, auf den ich mich konzentriere, enthält einige chinesische Zeichen und andere übliche Zeichen.
Dann habe ich versucht, das HTML-Tag und seinen Inhalt zu drucken, die gedruckten Texte sind alle chaotisch Code. Wie unten zeigt:Wie drucke ich Textinhalte, die chinesische Schriftzeichen in Python enthalten?
<h4>绔彛:443</h4>
<h4>A瀵嗙爜:</h4>
<h4>鍔犲瘑鏂瑰紡:aes-256-cfb</h4>
Der ursprüngliche Inhalt ist wie folgt:
<h4>端口:443</h4>
<h4>A远端:</h4>
<h4>加密方式:aes-256-cfb</h4>
Könnten Sie mir bitte helfen, wie aus dem richtigen Inhalt in der Konsole drucken? Ich benutze Python 2.7. Der Code-Snippet wird wie unten dargestellt:
Hinzufügen eine Update:
Nachdem ich Shiva Vorschlag versucht, die lxml Art und Weise verwendet wird, habe ich das Ergebnis, wie unten capture gezeigt:
Könnten Sie Plädoyer Kannst du mir sagen, wie man in der Git-Bash-Konsole chinesische Schriftzeichen anzeigt?
Vielen Dank im Voraus!
Mit freundlichen Grüßen,
Junma
Hallo Shiva, es funktioniert besser mit LXML-Bibliothek. Ich habe aber noch ein anderes Problem festgestellt, dass das aktuelle ausgedruckte Log als '[u 'u52a0 \ u5bc6 \ u65b9 \ u5f0f: aes-256-cfb']' angezeigt wird. Wie kann ich dann die chinesischen Schriftzeichen anzeigen lassen? – cmjauto
Entweder Sie können einzelne Elemente einer Liste drucken oder Sie können etwas tun, wie in [hier] erwähnt (http://stackoverflow.com/questions/20947173/printing-unicode-char-inside-a-list). – shiva
Hallo Shiva, die Methode in Ihrem vorgeschlagenen Link kann in einigen Sonderzeichen nicht funktionieren.Python meldet den Fehler: 'UnicodeEncodeError: 'gbk' Codec kann das Zeichen u '\ xa0' nicht an Position 10: Unzulässige Multibyte-Sequenz codieren.' – cmjauto