Wie kann ich Text aus PDF- oder Word-Dateien extrahieren (entfernen Sie fett, Bilder und andere Rich-Text-Formatierungsmedien) in C#?Extrahieren von Text aus PDF- und Word-Dateien
Antwort
Sie können die Filter verwenden, die für den Indizierungsdienst entwickelt wurden. Sie sind so konzipiert, dass sie den einfachen Text aus verschiedenen Dokumenten extrahieren, was für die Suche in einem Dokument nützlich ist. Sie können es für Office-Dateien, PDFs, HTML usw. verwenden, grundsätzlich jeden Dateityp mit einem Filter. Der einzige Nachteil ist, dass Sie diese Filter auf dem Server installieren müssen. Wenn Sie keinen direkten Zugriff auf den Server haben, ist dies möglicherweise nicht möglich. Einige Filter sind bereits mit Windows vorinstalliert, aber einige, wie PDF, müssen Sie selbst installieren. Für eine C# Implementierung finden Sie in diesem Artikel: Using IFilter in C#
Für PDF haben Sie sich einen Blick auf TallPDF
Überprüfen Sie auch diese: http://www.codeproject.com/KB/files/PDF_to_TEXT.aspx
Verwenden Sie Word-Objektmodell, es ist die einzige zuverlässige Art und Weise ist, da Word-Format nicht geöffnet ist und variieren von Version zu Version.
Aber wie? Dies ist eine sinnlose Antwort ohne ein Codebeispiel. – KyleM
PDF:
Sie haben verschiedene Möglichkeiten.
pdftotext:
Laden Sie die XPDF utilities. In der ZIP-Datei gibt es verschiedene Befehlszeilendienstprogramme. Einer ist pdftotext(.exe)
. Es kann den gesamten Textinhalt aus einer PDF-Datei mit gutem Verhalten extrahieren. Geben Sie pdftotext -help
ein, um etwas über seine Befehlszeilenparameter zu erfahren.
Ghost:
Installiere latest version of Ghostscript (v.8.71). Ghostscript ist ein PostScript- und PDF-Interpreter. Sie können es verwenden, um Text aus einer PDF als auch zu extrahieren:
gswin32c.exe^
-q^
-sFONTPATH=c:/windows/fonts^
-dNODISPLAY^
-dSAFER^
-dDELAYBIND^
-dWRITESYSTEMDICT^
-dSIMPLE^
-f ps2ascii.ps^
-dFirstPage=3^
-dLastPage=7^
input.pdf^
-dQUIET
Dies wird Ausgabetext auf den Seiten 3-7 von input.pdf
zu stdout enthält. Sie können dies in eine Datei umleiten, indem Sie > /path/to/output.txt
an den Befehl anhängen. (Vergewissern Sie sich, dass das Postscript-Utility-Programm ps2ascii.ps
lib
Unterverzeichnis in Ihrem Ghost vorhanden ist.)
Wenn Sie den -dSIMPLE
Parameter weglassen, wird die Textausgabe Zeilenumbrüche und Wortabstände werden zu erraten. Für Details sehen Sie sich die Kommentare in der Datei ps2ascii.ps
selbst an. Sie können diesen Parameter sogar durch -dCOMPLEX
ersetzen, um zusätzliche Informationen zur Textformatierung zu erhalten.
XPDF funktioniert besser als alles, was ich gefunden habe – chrisfs
Sie könnten sich PDFBox ansehen. Hier finden Sie einen Link zu einer Code-Projektseite, auf der Sie erfahren, wie Sie ihn in C# verwenden sowie weitere nützliche Kommentare.
http://www.codeproject.com/KB/string/pdf2text.aspx
Was Wort der Vorschlag, das Word-Objektmodell verwendet, ist wahrscheinlich das genaueste.
Docotic.Pdf library kann verwendet werden, um Text aus PDF-Dateien zu extrahieren.
Die Bibliothek kann extract plain text and text with formatting. Außerdem können collection of words oder Zeichen mit umschließenden Rechtecken mithilfe der Bibliotheks-API abgerufen werden.
Haftungsausschluss: Ich arbeite für den Verkäufer der Bibliothek.
- 1. Text aus PDF extrahieren
- 2. Extrahieren von Text aus einer PDF-Datei
- 3. C# Text aus PDF mit PdfSharp extrahieren
- 4. Extrahieren von PDF-Text in Objective C
- 5. Extrahieren von PDF-Text nach Themen
- 6. Extrahieren von Text aus einem PDF mit JBoss Richfaces
- 7. Extrahieren von Text aus einer PDF-Datei mit Python
- 8. Extrahieren von Substantiven und Verben aus Text
- 9. Extrahieren von Text aus Hostnamen
- 10. Extrahieren von Text aus Link
- 11. Extrahieren Sie den gesamten Text mit Zeichenfolgenpositionen aus einem PDF
- 12. PDF-Formularfeldnamen aus einem PDF-Formular extrahieren
- 13. Titel aus PDF-Dateien extrahieren?
- 14. Extrahieren Sie Text aus PDF-Datei mit Javascript
- 15. Extrahieren von Inhalt aus PDF mit PHP
- 16. R Extrahieren von Daten aus PDF-
- 17. Extrahieren Zeichenfolge aus Text
- 18. JSON aus Text extrahieren
- 19. Abschnitte von PDF extrahieren
- 20. Bilder/Texte aus PDF extrahieren mit Perl
- 21. extrahieren Text aus tex, entfernen Latex Tags
- 22. Extrahieren von Städtenamen aus Text mit Python
- 23. Extrahieren von Text aus einem contentEditable div
- 24. Extrahieren von Text aus HTML-Datei
- 25. Extrahieren von Text aus APA Zitat
- 26. Methoden zum Extrahieren von Orten aus Text?
- 27. Extrahieren von Text aus PDFs in C#
- 28. extrahieren von Text aus HTML-Mail odoo
- 29. Extrahieren von Text aus einer XML-Datei
- 30. Nomen aus Text extrahieren (Java)
Das ist * genau * was ich brauchte. Vielen Dank! –