In vielen Fällen geben, wenn jemand eine PDF hat, und sie wollen ‚get‘ die Bilder aus, ein Rendering der Seite selbst zu einem Bild ist oft zufriedenstellend. Wenn Sie jedoch wirklich die Bilder extrahieren möchten, müssen Sie vorsichtig sein, welches Werkzeug Sie verwenden, und dessen Reputation und Qualität der Ausgabe untersuchen.
Die erste wichtige Sache zu realisieren ist, wenn ein Werkzeug behauptet, "extrahieren die TIFF aus der PDF" oder "extrahieren Sie die JPG aus der PDF" dann sie irreführen Sie als PDF keine JPEG oder TIFF-Bilder enthält per sagen. Die Verwirrung entsteht, weil die Komprimierungstechnologie, die von diesen beiden Rasterbildformaten verwendet werden kann, in PDF zum Komprimieren von Bilddaten verwendet wird, aber es ist nicht dasselbe wie eine JPG-Datei, die einfach mit einer PDF "lebt".
Es gibt viele Tools da draußen, aber Sie werden feststellen, dass die Qualität sehr unterschiedlich sein wird. Einige können einfache PDFs gut verarbeiten, haben aber aufgrund ihrer Größenbeschränkungen oder komplexer PDFs einfach einen Absturz oder hängen. Einige können RGB-Daten gut verarbeiten, aber andere Farbräume werden einfach übersprungen oder falsch gehandhabt. Einige lassen Sie keine genaue Kontrolle über die Daten und werden einfach alles extrahieren und es als JPEG komprimieren. Um das Ganze zu übertreffen, können die Bilddaten oft in irgendeiner Weise beschädigt sein, und die von Ihnen verwendete Technologie muss in der Lage sein, diese Szenarios elegant zu handhaben.
Wenn Sie dies als Teil einer Unternehmenslösung implementieren möchten, benötigen Sie ein Tool, das die meisten PDF-Dateien verarbeiten kann, die Sie in freier Wildbahn finden können.
Suchen Sie nach 'pdfimages' im ** Poppler ** Paket. –
@MarkSetchell Wenn ich PDF-Bilder mit gescannten PDF-Dateien verwende, extrahiert es komplette Seiten, nicht nur die Bilder. Ich denke, es ist ein Werkzeug nur für "Text" -PDFs, nicht gescannt. – Plouf
Ein gescanntes PDF enthält normalerweise ein Bitmap-Bild pro Seite, und auf diesem Bitmap-Bild befindet sich der gesamte gescannte Inhalt dieser Seite. Eine Trennung von textähnlichen von den übrigen geschieht normalerweise nicht.Wenn Sie also die Bildressourcen aus der PDF extrahieren, erhalten Sie Bitmaps des gesamten Seiteninhalts. – mkl