Ich habe das Problem, dass ich bestimmte Texte filtern, die HTML enthalten können. Ich benutze jsoup, um die Tags zu whitelist und zu säubern, was ziemlich gut funktioniert.Jsoup Attribut Entfernung auf HTML-Tags
Ich habe nur das Problem, dass einige der Tags Attribute enthalten können, meist Stil oder Klassen, aber es könnte auch andere Attribute geben. (Name, Ziel, ect.) Bei der Säuberung ist das kein Problem, weil sie schön entfernt werden, aber beim Whitelisting werden einige Tags, die erlaubt wären, wegen der Attribute blockiert. Die grundlegende Whitelist scheint keine Stil- oder Klassenattribute abzudecken, und ich kann nicht sicher sein, was ich sonst noch treffe.
Da ich eine breite Palette von Tags zulassen möchte, aber die meisten davon während der Reinigung entfernen, möchte ich nicht alle Attribute für alle Tags hinzufügen, die ich erlaube. Am einfachsten wäre es, alle Attribute von allen Tags zu entfernen, da ich mich sowieso nicht für sie interessiere und dann überprüfe, ob der gestrippte Text mit den einfachen Tags gültig ist.
Gibt es eine Funktion, die alle Attribute oder eine einfache Schleife entfernt, wäre eine andere Option, dem Whitelist mitzuteilen, alle Attribute zu ignorieren und einfach die Tags auf die Whitelist zu setzen.
Verwandte: http://stackoverflow.com/questions/14303691/why-does-jsoup-remove-element-ids/14303971#14303971 –