2009-05-20 9 views
6

Kennt jemand eine Open-Source-Java-Bibliothek, die robust Diffing der Textteile von PDF-Dateien tun wird?Java Pdf Diff Bibliothek

Idealerweise hätte ich gerne etwas, das ein diff in Form eines Patches erzeugen würde.

+0

Vielleicht können Sie Ihre Erwartungen klären. Es gibt viele Möglichkeiten, zwei verschiedene PDFs zu erstellen, die genau gleich aussehen. Beachten Sie auch, dass PDFs keinen durchsuchbaren Text enthalten müssen. –

Antwort

0

Wenn sich die PDFs nur im Text unterscheiden, können Sie auch die Seiten rastern und dann die Unterschiede auf diese Weise betrachten - wir verwenden diese für die Regressionstestausgabe auf unserem PDF-Code.

+0

Gibt es Bibliotheken oder Code zum Rastern einer PDF-Datei? Ist das Ergebnis bei der Rasterisierung immer dasselbe für einen MD5/SHA1-Hash? Oder müssen Sie es mit einem unscharfen Vergleichswerkzeug wie Sikuli etc. vergleichen? – David

+0

Es ist nur aufgefallen, dass Apache PDFBox PDF in Bilder nach Seiten rasterisieren kann. – David

0

Sie können einen Blick auf xdiffweb.com werfen. Es ist ein reines Java-Opensource-Projekt, das auf apache pdfbox basiert.

+0

Danke. Die App scheint nicht verfügbar zu sein. – mac