Menschen, die Inhalte zu meiner Website senden, verwenden Sie Word, so bekomme ich eine Menge von Word-Dokumenten in HTML konvertieren. Ich möchte nur die grundlegende Formatierung beibehalten - Überschriften, Listen und Hervorhebungen - keine Bilder.Von MS Word oder Libre Office zu reinigen HTML
Wenn ich sie mit Libre Office "Save as HTML" umwandele, sind die resultierenden Dateien riesig, zum Beispiel eine Doc-Datei von 112K wird 450K HTML, die meisten davon nutzlos FONT und SPAN Tags (aus irgendeinem Grund, jeder einzelne Interpunktionszeichen ist in seiner eigenen Spannweite eingeschlossen!).
Ich versuchte dieses Skript: http://www.techrepublic.com/blog/opensource/how-to-convert-doc-and-odf-files-to-clean-and-lean-html/3708 basierend auf sauber und sed, und es reduziert die Größe auf etwa 150K, aber es gibt immer noch viele nutzlose SPANs.
Ich habe versucht zu kopieren und in Kompozer - ein HTML-Editor und dann speichern Sie als HTML; aber es konvertierte alle meine nicht-lateinischen (hebräischen) Buchstaben in Entitäten wie "ְ", was die Größe auf 750K erhöhte!
Ich versuchte docvert: https://github.com/holloway/docvert/issues/6 aber herausgefunden, dass es eine Python-Bibliothek erfordert, dass eine andere Bibliotheken erfordert, etc., die wie eine endlose Strecke von Abhängigkeiten scheint ...
Gibt es eine einfache Art und Weise sauber HTML zu erstellen aus Office-Dokumenten?
Dies ist wahrscheinlich ein Duplikat: http://stackoverflow.com/questions/67964/what-is-the-best-free-way-to-clean-up-word-html/1813798#1813798 –