2017-03-07 8 views
0

Gibt es eine Möglichkeit, Text, der innerhalb der Grenze der spezifischen Farbe existieren lassen, sagen wir "rot". ist es möglich, den gesamten Text, der in der Seite "rot" Border Box von PDF mit C# vorhanden sind. Ich hatte es gegoogelt, aber ich habe sowieso nicht gefunden, um Text mit Stilformat von pdf zu bekommen.Wie extrahieren Sie Text aus PDF mit C#

enter image description here

+2

Mögliche Duplikate von [Extrahieren von Text aus PDFs in C#] (http://stackoverflow.com/questions/2116440/extractrating-text-from-pdfs-in-c-sharp) – tretom

+0

Leider können Sie nicht a PDF wie HTML. Ich denke @Joe Irby hat die beste Lösung ... finde eine Option von Drittanbietern. Aber es wird nicht einfach sein. –

+0

Das OP hat bereits seine Frage [tag: pdfbox] markiert, die für eine Bibliothek eines Drittanbieters für die PDF-Verarbeitung gedacht ist. Ich denke, er fragt effektiv, wie er seine Aufgabe mit der PDF-Box umsetzen kann. – mkl

Antwort

0

Die Antwort ist nicht einfach, leider. Wenn Programmierer Code schreiben müssen, der Text aus PDF-Dateien parsen kann (was Sie tun wollen), verwenden sie normalerweise Code-Bibliotheken von Drittanbietern, die andere speziell für die Bearbeitung von PDFs geschrieben haben. In der C# -Welt gibt es einige Optionen für bekannte PDF-Manipulationsbibliotheken, aber diejenigen, die am einfachsten zu verwenden sind, sind nicht frei. Ich hatte persönlich gute Ergebnisse mit einer Bibliothek namens iTextSharp, aber es ist nicht kostenlos.

+0

Das OP hat bereits seine Frage [tag: pdfbox] markiert, die für eine Bibliothek eines Drittanbieters für die PDF-Verarbeitung gedacht ist. Ich denke, er fragt effektiv, wie er seine Aufgabe mit der PDF Box umsetzen kann, nicht wie es ohne eine Bibliothek geht. – mkl