2009-07-01 5 views
1

Ich bin auf der Suche nach einem Dienstprogramm oder Bibliothek zum Extrahieren von Text aus PDFs und Formatieren im Klartext unter Beibehaltung so viel des ursprünglichen Layouts wie möglich (z. B. Tabellen, Spalten usw.).PDF in formatiertes ASCII konvertieren - was ist der Stand der Technik?

Wir verwenden derzeit pdftotext, aber ich frage mich, ob es etwas besseres gibt. Es muss sich um ein Befehlszeilentool oder eine Bibliothek handeln, die wir in unsere App einbinden können.

Ist pdftotext so gut wie es geht, oder gibt es etwas besseres?

+0

Es gibt viele pdf-Bibliothek ... Einfach googeln. –

Antwort

1

Zum Vorteil von anderen mit dem gleichen Problem: Wir blieben am Ende mit pdftotext trotz seiner Nachteile (wie produzieren Müll Ausgabe manchmal, wenn Schriftart Teilmengen verwendet werden). auch

Siehe: http://www.glyphandcog.com/textext.html

0

AbiWord hatte ein SoC-Projekt für diese eine Weile zurück. IIRC, es hat einen ziemlich guten Job bei der Erstellung von mehrspaltigen Dokumenten, Tabellen und Abbildungen gemacht. Es gibt auch eine Befehlszeilenschnittstelle.

0

Ein Teil des Problems ist, dass ich einige der einfacheren pdf Manipulation/Werkzeuge für die Erstellung glaube nicht Text hinzufügen, sondern Text als Teil einer statischen Bild wie pdf-Datei zu speichern. Für diese Dateien müssten Sie OCR verwenden.

Verwandte Themen