Suche nach Seiten ohne Text in einem PDF-Dokument

Wie würden Sie fortfahren, nach "leeren" Seiten in einer PDF-Datei zu suchen? Im nächsten Schritt möchte ich diese Seiten mit ghostscript in .tiff umwandeln. Wenn es möglich ist, mit einem Befehl auf einer Unix-Maschine alles zu tun, wäre das perfekt.Suche nach Seiten ohne Text in einem PDF-Dokument

Quelle

2017-01-23 Matthias Pitscher

Nun, das hängt zu einem großen Teil davon ab, was Sie mit 'Text' (von Ihrer Betreffzeile) oder 'leeren' Seiten (von Ihrem Nachrichtentext) meinen. Es ist durchaus möglich, Vektorpfade zu haben, die die Form von Text wiedergeben, oder auch Bilder, die Zeichenformen wiedergeben.

Betrachten Sie diese als "Text"?

Oder suchen Sie Seiten, die überhaupt keinen Inhalt haben (dh leer)? Ich kann mir nicht vorstellen, warum Sie diese zu TIFF ...

Für Seiten ohne Text (dh nicht mit den PDF-Text-Operatoren) würde dann würde ich die Text-Extraktion-Gerät in Ghostscript verwenden. Jede Seite, deren Ausgabe von diesem Gerät leer ist, enthält keinen Text.

Sie können Ghostscript dann in der PDF-Datei ausführen und den Schalter -sPageList verwenden, um nur die gewünschten Seiten zu verarbeiten und eines der TIFF-Geräte auszuwählen, um eine TIFF-Ausgabe zu erhalten.

Sie können dies nicht in einem Durchgang (mit einem nicht geänderten Ghostscript) tun, weil Sie das Text-Extraktionsgerät benötigen, um herauszufinden, welche Seiten Text haben, und dann das TIFF-Gerät, um die Seiten zu schreiben.

Sie konnte ein neues Gerät schreibt die Seite, die Ausgabe zu TIFF, und wenn die text_begin() -Methode des Gerätes immer genannt wird, ist es einfach überspringt zu schreiben. Das würde es in einem Durchgang tun, aber es würde bedeuten, ein neues Gerät zu schreiben (99% davon ist Kopieren + Einfügen eines Tiff-Geräts) und Ghostscript neu zu erstellen. Sie müssten natürlich auch Ihren Code AGPL.

Quelle

2017-01-23 17:08:47 KenS

Entschuldigung, ich spreche von gescannten Dokumenten. Also keine Vektoren. Alles, was eine OCR als Text betrachtet, ist Text. Und ich möchte jede Seite extrahieren, die keinen Text zeigt, aber ein Bild oder ein Stempel sein kann oder nur weiß ist. Vielen Dank für Ihre Antwort, jetzt weiß ich, auf welchen Geräten sollte ich auf Ghostscript konzentrieren (was ein bisschen schwer zu verstehen ist). Für den Moment habe ich die Seiten manuell gefunden und extrahierte sie mit ImageMagick, das war nicht zu viel Arbeit. –

Suche nach Seiten ohne Text in einem PDF-Dokument

Antwort

Verwandte Themen