Wie würden Sie fortfahren, nach "leeren" Seiten in einer PDF-Datei zu suchen? Im nächsten Schritt möchte ich diese Seiten mit ghostscript in .tiff umwandeln. Wenn es möglich ist, mit einem Befehl auf einer Unix-Maschine alles zu tun, wäre das perfekt.Suche nach Seiten ohne Text in einem PDF-Dokument
Antwort
Nun, das hängt zu einem großen Teil davon ab, was Sie mit 'Text' (von Ihrer Betreffzeile) oder 'leeren' Seiten (von Ihrem Nachrichtentext) meinen. Es ist durchaus möglich, Vektorpfade zu haben, die die Form von Text wiedergeben, oder auch Bilder, die Zeichenformen wiedergeben.
Betrachten Sie diese als "Text"?
Oder suchen Sie Seiten, die überhaupt keinen Inhalt haben (dh leer)? Ich kann mir nicht vorstellen, warum Sie diese zu TIFF ...
Für Seiten ohne Text (dh nicht mit den PDF-Text-Operatoren) würde dann würde ich die Text-Extraktion-Gerät in Ghostscript verwenden. Jede Seite, deren Ausgabe von diesem Gerät leer ist, enthält keinen Text.
Sie können Ghostscript dann in der PDF-Datei ausführen und den Schalter -sPageList verwenden, um nur die gewünschten Seiten zu verarbeiten und eines der TIFF-Geräte auszuwählen, um eine TIFF-Ausgabe zu erhalten.
Sie können dies nicht in einem Durchgang (mit einem nicht geänderten Ghostscript) tun, weil Sie das Text-Extraktionsgerät benötigen, um herauszufinden, welche Seiten Text haben, und dann das TIFF-Gerät, um die Seiten zu schreiben.
Sie konnte ein neues Gerät schreibt die Seite, die Ausgabe zu TIFF, und wenn die text_begin() -Methode des Gerätes immer genannt wird, ist es einfach überspringt zu schreiben. Das würde es in einem Durchgang tun, aber es würde bedeuten, ein neues Gerät zu schreiben (99% davon ist Kopieren + Einfügen eines Tiff-Geräts) und Ghostscript neu zu erstellen. Sie müssten natürlich auch Ihren Code AGPL.
- 1. Suche nach Website-Seiten in Bootstrap
- 2. Suche nach Text in einem Objekt-Überwachungsfenster in Visual Studio
- 3. Suche nach Option durch Text
- 4. Python Selen Suche nach Text
- 5. Suche nach einem Text in Textdatei als Array gespeichert
- 6. Suche nach Seiten Erklärung der Codes
- 7. Auf der Suche nach einem .NET "Text" -Editor Steuerelement
- 8. Suche nach Text innerhalb div
- 9. Suche nach abgeschnittenen Text in Python
- 10. Suche nach Strings in einem 2D-Char-Array ohne Methoden
- 11. Finding Text in 100 Seiten
- 12. Suche nach bestimmten Argumenten in Text
- 13. Suche nach Text in bestimmten Zeilen
- 14. Suche nach Code oder Text in GitLab
- 15. Suche nach Text in Git-Commit-Bereich
- 16. jQuery Suche nach Text in einer Variablen?
- 17. Suche nach Text in AFP-Dateien
- 18. Suche nach einem fehlenden .bash_profile
- 19. Suche nach einem Wort
- 20. Wie suche ich nach einem bestimmten Text innerhalb einer Variablen?
- 21. Suche nach einem Sub-Array in einem Array in JavaScript
- 22. Suche nach einem Dateiinhalt in C#
- 23. Suche nach einem Wert in gesegnetem Hash
- 24. Suche nach einem Wort in jsp
- 25. Makro für die Suche nach Text in einem anderen Blatt, Suche nach Spalte und Kopieren/Einfügen in das Originalblatt
- 26. Suche nach sich wiederholenden Wort im Text
- 27. HTML XPath Suche nach Klasse und Text
- 28. Greasemonkey bei der Suche nach Text Problem
- 29. Suche nach einem bestimmten Objekt
- 30. Wie deaktiviere ich Firefox "Suche nach Text, wenn ich anfange zu tippen" auf Seiten mit Tastaturkürzeln?
Entschuldigung, ich spreche von gescannten Dokumenten. Also keine Vektoren. Alles, was eine OCR als Text betrachtet, ist Text. Und ich möchte jede Seite extrahieren, die keinen Text zeigt, aber ein Bild oder ein Stempel sein kann oder nur weiß ist. Vielen Dank für Ihre Antwort, jetzt weiß ich, auf welchen Geräten sollte ich auf Ghostscript konzentrieren (was ein bisschen schwer zu verstehen ist). Für den Moment habe ich die Seiten manuell gefunden und extrahierte sie mit ImageMagick, das war nicht zu viel Arbeit. –