2016-03-24 12 views
1

Suchen Sie nach einer kostenlosen/kostenpflichtigen .net-Bibliothek, um die Text-/Grafik-/Bildelemente eines gegebenen Acrobat-Dokuments (.pdf) vorzugsweise als Objektmodell zu extrahieren, damit wir es in ein anderes Format übersetzen können das ist für einen proprietären WYSIWYG-Editor verständlich.Extrahieren von PDF-Elementen mit .net

Wenn eine direkte Übersetzung unmöglich ist, würde gerne sehen, welche Ansätze möglich sind, um die Textelemente, Formen/Grafiken, Bilder getrennt zu erfassen. Das Zielformat erfordert, dass die Elemente explizit unter Verwendung von x, y-Positionen auf einer Seite positioniert werden, und es wäre notwendig, dass die PDF-Extraktions-Bibliothek mir die Koordinaten der analysierten Elemente innerhalb einer Seite mitteilt.

Alle Vorschläge würden sehr geschätzt werden.

+1

Fragen, die uns bitten, ein Buch, ein Tool, eine Softwarebibliothek, ein Lernprogramm oder eine andere Offsite-Ressource zu empfehlen oder zu finden, sind für Stack Overflow off-topic, da sie dazu neigen, eigensinnige Antworten und Spam zu erhalten. Beschreiben Sie stattdessen das Problem und was bisher unternommen wurde, um es zu lösen. –

Antwort

1

Sie können Docotic.Pdf library für die Aufgabe verwenden.

Die Bibliothek kann extract text und bieten Informationen über die Koordinaten jedes Wortes oder sogar Zeichen. Und es kann extract images from PDF documents während der Bereitstellung von Informationen über Bildposition, Größe und Transformationen.

Haftungsausschluss: Ich arbeite für den Verkäufer der Bibliothek.

Verwandte Themen