Ich habe viele Dateien ". Txt" Dateien, die üblichen Text und XML-Tags in der Datei hat. Die Datei ist sehr groß und die Anzahl der Dateien ist sehr hoch. Also ich möchte einfach xml ohne Text nehmen. Ich weiß, dass Tags von <body>
beginnen und mit </body>
enden. Ich brauche nur <body>
und alle verschachtelten Tags in <body>
Erhalten Sie nur Xml unter Textdatei
Beispiel Datei nehmen:
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
<body>
...
</body>
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
<body>
...
</body>
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
<body>
...
</body>
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
exampleTextexampleTextexampleTextexampleTextexampleTextexampleText
Ich habe versucht XDocument doc = XDocument.Parse(str);
zu verwenden, aber ich habe eine Ausnahme bekam:
Daten an Die Root-Ebene ist ungültig. Linie 1, Position 1.
Da die gesamte Datei kein XML ist, können Sie sie nicht als XML analysieren. Sie müssen die Body-Tags manuell analysieren. – AlG
@AlG durch Regex für bessere Leistung? – StepUp
Kleiner Vorschlag, lesen Sie jede Zeile, wenn Sie
Sie sind inTag, während inTag extrahieren Sie die XML, wenn Sie eine Tag ändern inTag = false treffen. –