Ich muss Word in HTML konvertieren, die ich mit Aspose tun und das funktioniert gut. Das Problem ist, dass es einige redundante Elemente erzeugt, von denen ich denke, dass sie auf die Art und Weise zurückzuführen sind, wie der Text in einem Wort gespeichert wird.mit C# entfernen Sie doppelte HTML-Span-Elemente
Zum Beispiel in meinem Word-Dokument der Text erscheint:
Genehmigung zur Freisetzung
Wenn umgewandelt html es wird:
<span style="font-size:9pt">A</span>
<span style="font-size:9pt">UTHORIZATION FOR R</span>
<span style="font-size:9pt">ELEASE</span>
I C# bin mit und würde einen Weg gerne um die redundanten Bereichselemente zu entfernen. Ich denke, entweder AngleSharp oder html-agility-pack sollte dazu in der Lage sein, aber ich bin mir nicht sicher, ob das der beste Weg ist?
Es ist nicht klar, was Sie anrufen * redundantes Element *. Im obigen Beispiel sieht es nicht so aus, als wäre eines Ihrer Span-Elemente redundant. Wenn Sie den erzeugten HTML-Code loswerden wollen und einfach den Text greifen wollen, können Sie sich auf '[diese Span-Elemente übergeordnete] .InnerText' beziehen. Der gesamte Text, der von Word in HTML konvertiert wurde - wird in Span-Tags platziert, die genau so aussehen? – Veverke
Was ich meinte ist, dass ich möchte, dass das HTML wie folgt aussieht: ERMÄCHTIGUNG ZUR FREIGABE – ksprague