2010-11-26 4 views

Antwort

4

Schienen enthält bereits einige leistungsstarke sanitization helpers.

string = '<span id="span_is"><br><br><u><i>Hi</i></u></span>' 
strip_tags(string) 
+0

Das ist ziemlich gut, aber es lässt viel " " – AnApprentice

1

Es hängt davon ab, wie komplex Ihre HTML, aber Sie sicherlich Nokogiri und XPath den Text zur Abfrage verwenden könnte, die Sie aus dem HTML wollen. Es hängt davon ab, wie viel Sie analysieren möchten, und ob es eine zusätzliche Bibliothek rechtfertigt, um dies zu tun.

0

Ein Parser kann es tun, aber wäre übertrieben, wenn Sie einfach HTML zu präsentieren haben. Etwas wie Loofah oder sanitize könnte alle Tags mit Nokogiri entfernen, um den HTML-Code zu analysieren und dann die Tags zu entfernen, so dass Sie den Text erhalten.

require 'sanitize' 

html = '<html><body>Jackdaws love my giant sphinx of quartz.</body></html>' 
puts Sanitize.clean(html) 
# >> Jackdaws love my giant sphinx of quartz. 

Ich denke, Luffa fähiger als sanieren, aber wenn alles, was Sie tun möchten, ist Tags wegwerfen sanieren könnte der Weg zu gehen.

Verwandte Themen