2012-10-05 4 views
7

Ich möchte wissen, was die offizielle Lösung für die Verarbeitung von Unicode-XML in Haskell ist. Ich bemerke, dass HXT eine einfache String Darstellung (eine Liste von Unicode-Zeichen !!!) für Text verwendet.Wie steht Haskell zu Unicode in XML?

http://hackage.haskell.org/packages/archive/hxt/9.3.1.0/doc/html/Text-XML-HXT-DOM-TypeDefs.html#t:XNode

Constructors 
XText String ordinary text (leaf) 
XBlob Blob   text represented more space efficient as bytestring (leaf) 

Wie wählen Sie zwischen den beiden Darstellungen beim Parsen? Das Erzwingen der Verwendung von Zeichenlisten durch den Benutzer klingt nicht besonders attraktiv, insbesondere wenn die XML-Dokumente viel Textinhalt haben.

Auch ich fand http://hackage.haskell.org/package/hxt-unicode auf Google, bin mir aber nicht sicher, wie es mit Parsing verwendet werden soll. Die Unterstützung für Unicode war früher viel expliziter: http://hackage.haskell.org/packages/archive/hxt/8.5.2/doc/html/Text-XML-HXT-DOM-Unicode.html , aber dieses Modul wurde in der neuesten Version (9.3.1.0 zum Zeitpunkt des Schreibens) ohne klaren Grund entfernt. Was war die Motivation dahinter?

Kann jemand einen Beispielcode geben, auch, wie HXT bitte verwendet werden soll? Die Wiki-Seiten fehlen in dieser Hinsicht ernsthaft. Vielen Dank.

+0

Welches Büro würde die "offizielle Lösung für die Verarbeitung von Unicode XML in Haskell" ankündigen? Über HXT, das ich nicht empfehlen möchte, gibt es Beispieldateien über die Quelle: https://github.com/UweSchmidt/hxt. – applicative

Antwort

3

Das xml-conduit-Paket verwendet den -Datentyp zum Speichern von Textdaten. Es wurde in den letzten Jahren zur Standarddarstellung von Textdaten. xml-Conduit ist ein gut gepflegtes Paket, und ich habe es persönlich für eine große Menge an Open-Source- und Handelscode verwendet.