Ich möchte den Inhalt eines MS Word 2003-Dokuments in HTML in C# extrahieren.Wie kann ich ein MS Word 2003-Dokument in C# in HTML konvertieren?
Irgendwelche Ideen?
Ich möchte den Inhalt eines MS Word 2003-Dokuments in HTML in C# extrahieren.Wie kann ich ein MS Word 2003-Dokument in C# in HTML konvertieren?
Irgendwelche Ideen?
Ich denke, das ist der einfachste Weg ist es
http://asptutorials.net/C-SHARP/convert-ms-word-docs-to-html/
Sie entscheidende Punkt in dem Artikel zu tun, ist, dass sie verwenden die SaveAs funktionieren http://msdn.microsoft.com/en-us/library/aa220734.aspx
So:
string newfilename = folder_to_save_in + FileUpload1.FileName.Replace(".doc", ".html");
object o_nullobject = System.Reflection.Missing.Value;
object o_newfilename = newfilename;
object o_format = Word.WdSaveFormat.wdFormatHTML;
object o_encoding = Microsoft.Office.Core.MsoEncoding.msoEncodingUTF8;
object o_endings = Word.WdLineEndingType.wdCRLF;
// SaveAs requires lots of parameters, but we can leave most of them empty:
wordApplication.ActiveDocument.SaveAs(ref o_newfilename, ref o_format, ref o_nullobject,
ref o_nullobject, ref o_nullobject, ref o_nullobject, ref o_nullobject, ref o_nullobject, ref o_nullobject,
ref o_nullobject, ref o_nullobject, ref o_encoding, ref o_nullobject,
ref o_nullobject, ref o_endings, ref o_nullobject);
Die Bibliothek ist Microsoft.Office.Interop.Word;
Wenn ich mich richtig erinnere, ist Word auf der Maschine erforderlich, wo der Code ausgeführt wird. Wenn es ASP.NET ist, ist es auf dem Server erforderlich.
Drei Möglichkeiten: 1. Speichern als HTML, wie von Napster beschrieben 2. die Open XML in HTML umwandeln; Das XSLT ist verfügbar unter http://www.codeplex.com/OpenXMLViewer 3. Für den saubersten HTML Code schreiben, um jeden Stil im Dokument in CSS zu konvertieren, und jede direkte Formatierung in @style einfügen.
Ist Word auf dem Computer installiert, auf dem der C# -Code ausgeführt wird?
Word ist auf dem Computer installiert, das ist kein Problem. Mit der Lösung von Napster habe ich eine wirklich chaotische HTML-Ausgabe bekommen. Ich bin sicher, dass jemand schon den ganzen Code geschrieben hat, um diesen HTML zu bereinigen? – Xavier
Ich glaube, Sie haben vergessen, o_nullObject in Ihrer Probe zuzuweisen/zu deklarieren. Es sollte auf 'System.Type.Missing' gesetzt werden –
danke divo, vergaß es ja. –