2009-02-28 5 views

Antwort

13

Die Beispiele und der Beispielcode auf der Website von Apache sind ziemlich gut. Ich empfehle dir, dort anzufangen.

http://poi.apache.org/hwpf/quick-guide.html

bestimmte Bits von Text zu erhalten, zuerst eine org.apache.poi.hwpf.HWPFDocument erstellen. Rufen Sie den Bereich mit getRange() ab, und rufen Sie dann Absätze ab. Sie können dann Text und andere Eigenschaften erhalten.

Here für ein Beispiel zum Extrahieren eines Bildes. Here für die neueste Version zum Zeitpunkt der Erstellung.

Und natürlich die Javadocs

Beachten Sie, dass nach der POI-Website,

HWPF noch in der frühen Entwicklung ist.

1

Es ist nicht kostenlos (oder sogar billig!), Aber Aspose.Words sollte in der Lage sein, dies zu tun. Ihr Evaluierungs-Download lässt Sie mit kleinen Dateien spielen.

Müssen die Zieldateien auch Dokumente sein? Sie können die Dokumente in Office öffnen und als HTML speichern. Dann wird die Trennung trivial. RTF ist auch eine praktikable Option, aber ich kann einen guten RTF-Parser nicht von ganzem Herzen empfehlen.

Bearbeiten zu sagen: Ich erinnerte mich nur an eine andere mögliche Lösung: Jacob, aber Sie müssen eine Instanz von Office auf dem gleichen Computer ausführen. Es ist kurz für Java COM Bridge und ermöglicht es Ihnen, die COM-Bibliotheken in Office aufzurufen, um die Dokumente zu bearbeiten. Ich bin sicher, es ist nicht so gruselig wie es klingen mag!

Verwandte Themen