Ich bin auf der Suche nach einer Ressource für Tokenizing HTMLish Markup. Ich erstelle eine Auszeichnungssprache, die HTML sehr ähnlich ist (aber nicht ist). Alles, was ich will, ist etwas, das es in Tags, Text, Kommentare usw. aufteilen kann. Ich brauche die Token nicht in einer Baumstruktur anzuordnen oder zu überprüfen, ob sie gültige Tags sind oder was auch immer - ich mache das selbst .Ruby HTMLish tokenizer
So zum Beispiel gegeben, wenn diese Zeichenfolge:
hello <x> dude <whatever></x>
wäre es ein Array so etwas wie dies zurück:
hello
<x>
dude
<whatever>
</x>
Es ist auch diese Zeichenfolge repräsentieren Objekte zurückkehren kann. Entweder wäre cool.
Ich habe in Nokogiri und Oga untersucht, aber sie scheinen nur HTML zu parsen und zu strukturieren. Vorschläge?