Ich habe einen Text innerhalb eines span-Tages in einer HTML-DateiExtrahieren von Text aus ‚<' and '>‘
Ich brauche es zu extrahieren, ich versuchte, dies so weit, aber es scheint nicht zu funktionieren:
Html:
"<span id=\"MainContent_lblGenAssessment\">$866,250</span></dd>"
ich versuchte dies:
gsub(x = "<span id=\"MainContent_lblGenAssessment\">$866,250</span></dd>"r,pattern = ">(.*?)<",replacement = "\\1")
Aber es scheint nutzlos, Wie kann ich die 86 extrahieren 6.250?
Bearbeiten: es muss die Standard-R-Bibliotheken verwenden, ich kann keine Pakete installieren.
"Ich kann keine Pakete installieren" Das ist extrem unwahrscheinlich. – Roland
Obligatorischer Link zur kanonischen Frage zum Thema: [RegEx-Übereinstimmung mit offenen Tags außer XHTML-eigenen Tags] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained -Stichworte). – sleske
Regex sollte nicht auf HTML verwendet werden. Der richtige Weg, dies zu tun wäre, ein HTML-Parsing-Paket zu installieren und es richtig zu machen. Ich empfehle 'XML :: xmlValue' –