2010-11-19 9 views
0

Gibt es eine Möglichkeit, den Text und Bilder von MS Office-Dateien wie Word, Excel, PPT usw. zu trennen und die Position des Bildes in einem Dokument (wo das Bild beginnt) im Dokument zwischen Text)?Python Trennen von Bildern und Text aus MS-Office-Dateien

Die Anwendung muss für Linux-Box entwickelt werden.

Bitte vorschlagen.

+0

Wenn Sie mit 97-2003 Dateien festhängen, wird es viel, * viel * schwieriger als wenn Sie 2007 Dateien verwenden können, die ZIPs sind (Dokument als XML plus die anderen Dateien). –

+0

Ich glaube nicht, dass es da draußen eine Bibliothek gibt, die das tun kann, hauptsächlich weil [die Office-Dateiformate sind ziemlich kompliziert] (http://www.joelonsoftware.com/items/2008/02/19.html) . Um die Bilder zu extrahieren, können Sie die Datei als .docx/.xlsx-Datei speichern, sie in '* .zip' umbenennen und die Bilder im Zip-Archiv finden. –

+0

Sie haben möglicherweise eine andere Chance, wenn Sie das Dokument als RTF speichern, auf diese Weise ist es mindestens ein "lesbares" Format; vielleicht finden Sie dort die Position der Bilder. –

Antwort

0

Vielleicht möchten Sie sich die Python UNO-Bindungen für OpenOffice anschauen - wiki unter http://wiki.services.openoffice.org/wiki/Python - damit Sie MSOffice docs unter Linux öffnen und damit arbeiten können.

Was genau möchten Sie erreichen - eine neue Möglichkeit, Office-Dokumente zu erstellen?

+0

Ja, das kannst du sagen. –

Verwandte Themen