Ich muss Bilder aus Corporate PDF-Dateien extrahieren, die technische Zeichnungen enthalten. Die PDF-Dateien entsprechen einem PDF/A-Format.Bilder extrahiert aus PDF sind horizontal fragmentiert
Ich verwende einen Ansatz mit Apache's pdfbox, die ich aus dieser question gelernt habe.
Mein Problem ist jetzt, dass für einige Dateien die extrahierten Bilder horizontal in bis zu 3 Schichten fragmentiert sind. Da ich sie nicht manuell zusammenfügen möchte, wäre ich froh, wenn jemand einen Rat hätte.
EDIT - ANSATZ 1
Eine Lösung, die ich dachte, war Ordner pro Bild erstellt, dann die Fragmente alle in den entsprechenden Ordnern abgelegt, über die Ordner durchlaufen und den Inhalt verschmelzen. Das würde einige Sortierarbeiten auf meiner Seite erfordern, aber ich denke, es könnte funktionieren.
String key = (String) imageIter.next();
kehrt Im < Nummer>, Nummer bezeichnet die Reihenfolge der Bilder pro Seite. So sind die Fragmente in den Ordnern wäre bereits in einer Reihenfolge und das Verschmelzen Programm könnte leicht herausfinden, welcher Teil oben ist, usw.
EDIT - ANSATZ 2
Ein weiterer Ansatz, den ich denken konnte: Die Fragmente haben ihre Reihenfolge in ihren Dateinamen in diesem Muster pdfname_page_[\d]_Im[\d][\.][tiff|png]
. So könnte ich die Bilder sortieren, die dieser Reihenfolge entsprechen, und dann alle Fragmente in einer Reihe zusammenfassen, die die gleiche Breite haben. Ich habe diese Fragmente überprüft und es scheint, dass fast alle Bilder unterschiedliche Dimensionen haben.
Was sagen Sie zu diesen Ansätzen?
EDIT3
Da wir aus der Zeit lief, mein Kollege und ich hatten die Bilder von Hand zu extrahieren. Ich bin immer noch interessiert, aber ich muss dieses Problem in meiner Freizeit lösen.
Sollte ich eigene Lösungsvorschläge als Antwort/Kommentar hinzufügen? Oder ist es in Ordnung, sie zur Frage hinzuzufügen? – mike