Gibt es eine Möglichkeit, Text, der innerhalb der Grenze der spezifischen Farbe existieren lassen, sagen wir "rot". ist es möglich, den gesamten Text, der in der Seite "rot" Border Box von PDF mit C# vorhanden sind. Ich hatte es gegoogelt, aber ich habe sowieso nicht gefunden, um Text mit Stilformat von pdf zu bekommen.Wie extrahieren Sie Text aus PDF mit C#
Antwort
Die Antwort ist nicht einfach, leider. Wenn Programmierer Code schreiben müssen, der Text aus PDF-Dateien parsen kann (was Sie tun wollen), verwenden sie normalerweise Code-Bibliotheken von Drittanbietern, die andere speziell für die Bearbeitung von PDFs geschrieben haben. In der C# -Welt gibt es einige Optionen für bekannte PDF-Manipulationsbibliotheken, aber diejenigen, die am einfachsten zu verwenden sind, sind nicht frei. Ich hatte persönlich gute Ergebnisse mit einer Bibliothek namens iTextSharp, aber es ist nicht kostenlos.
Das OP hat bereits seine Frage [tag: pdfbox] markiert, die für eine Bibliothek eines Drittanbieters für die PDF-Verarbeitung gedacht ist. Ich denke, er fragt effektiv, wie er seine Aufgabe mit der PDF Box umsetzen kann, nicht wie es ohne eine Bibliothek geht. – mkl
- 1. C# Text aus PDF mit PdfSharp extrahieren
- 2. Text aus PDF extrahieren
- 3. Extrahieren Sie Text aus PDF-Datei mit Javascript
- 4. Extrahieren Sie den gesamten Text mit Zeichenfolgenpositionen aus einem PDF
- 5. Bild aus PDF extrahieren mit. Net C#
- 6. Extrahieren von PDF-Text in Objective C
- 7. Extrahieren von Text aus einer PDF-Datei
- 8. Extrahieren von Text aus einer PDF-Datei mit Python
- 9. Extrahieren von Text aus einem PDF mit JBoss Richfaces
- 10. Extrahieren von Text aus PDF- und Word-Dateien
- 11. So extrahieren Sie formatierten Textinhalt aus PDF
- 12. Extrahieren von Dimensionen aus PDF mit OCR
- 13. TIFF aus PDF extrahieren mit PDFBox v2
- 14. Bilder/Texte aus PDF extrahieren mit Perl
- 15. Extrahieren von Inhalt aus PDF mit PHP
- 16. PDF-Formularfeldnamen aus einem PDF-Formular extrahieren
- 17. Extrahieren von PDF-Text nach Themen
- 18. So extrahieren Sie FlateDecoded Images aus PDF mit PDFSharp
- 19. Seite aus .pdf mit PHP extrahieren
- 20. JSON aus Text extrahieren
- 21. Java - Text-Extraktion aus PDF mit OCR
- 22. Extrahieren aller Bilder und Text aus der PDF-Datei
- 23. Extrahieren von Text aus PDFs in C#
- 24. Titel aus PDF-Dateien extrahieren?
- 25. Entfernen Sie Sonderzeichen aus Text/PDF mit Apache Tika
- 26. So extrahieren Sie Bilder aus PDF mit Java (ohne pdfbox)
- 27. Extrahieren von Städtenamen aus Text mit Python
- 28. So extrahieren Sie mehrere Mailadressen aus PDF-Dateien mit pdftotext
- 29. So extrahieren Sie Features aus reinem Text?
- 30. Extrahieren Zeichenfolge aus Text
Mögliche Duplikate von [Extrahieren von Text aus PDFs in C#] (http://stackoverflow.com/questions/2116440/extractrating-text-from-pdfs-in-c-sharp) – tretom
Leider können Sie nicht a PDF wie HTML. Ich denke @Joe Irby hat die beste Lösung ... finde eine Option von Drittanbietern. Aber es wird nicht einfach sein. –
Das OP hat bereits seine Frage [tag: pdfbox] markiert, die für eine Bibliothek eines Drittanbieters für die PDF-Verarbeitung gedacht ist. Ich denke, er fragt effektiv, wie er seine Aufgabe mit der PDF-Box umsetzen kann. – mkl