2008-09-05 10 views
4

Gibt es eine gute Bibliothek zum Extrahieren von Text aus einer PDF? Ich bin bereit, dafür zu zahlen, wenn ich muss.Was ist eine gute Methode zum Extrahieren von Text aus einer PDF mit C# oder klassischen ASP (VBScript)?

Etwas, das mit C# oder klassischen ASP (VBScript) funktioniert, wäre ideal und ich muss auch in der Lage sein, die Seiten von der PDF zu trennen.

This question hatten einige interessante Sachen, vor allem pdftotext, aber ich möchte vermeiden, eine externe Befehlszeile App aufzurufen, wenn ich kann.

Antwort

4

Sie können die in Windows integrierte IFilter-Schnittstelle verwenden, um Text und Eigenschaften (Autor, Titel usw.) aus jedem unterstützten Dateityp zu extrahieren. Es ist eine COM-Schnittstelle, so dass Sie die .NET-Interop-Funktionen verwenden müssten.

Sie müssten auch den kostenlosen PDF IFilter-Treiber von Adobe herunterladen.

0

Hier ist eine gute Liste: Open Source Libs for PDF/C#

dieser meisten sind zur Schaffung PDFs ausgerichtet, aber sie sollten auch eine Lesefähigkeit haben.

Es ist dies eine ebenso: iText

Ich habe erst vor mit iText gespielt. Nichts Besonderes.

0

Wir haben Aspose mit guten Ergebnissen verwendet.

0

Docotic.Pdf library kann zum Extrahieren von formatiertem oder normalem Text aus PDF-Dokumenten verwendet werden.

Die Bibliothek kann PDF-Dokumente jeder Version lesen (bis zum letzten veröffentlichten Standard). Die Extraktion von Seiten wird auch von der Bibliothek unterstützt.

Verbindungen Code zu probieren:

Disclaimer: Ich für den Verkäufer der Bibliothek arbeiten.

0

Zusätzlich zu dem nach der zugelassenen Antwort: Es gibt auch alternative kommerzielle Lösungen Adobe IFilter für Textindizierung (vorausgesetzt, die ähnliche API, sondern auch mit zusätzlicher Premium-Funktionalität) zu ersetzen:

  1. Foxit PDF IFilter: bietet viel schnellen Text Indexierung im Vergleich zu Adobes Plugin.
  2. PDFLib PDF iFilter: enthält Unterstützung für beschädigte PDF-Dokumente sowie die zusätzliche API, um eigene Abfragen auszuführen.

Wenn Sie für das einzelne Werkzeug suchen, der von beiden verwalteten .NET-Anwendungen und Legacy-Programmiersprachen wie klassische ASP oder VB6 verwendet werden kann, dann ist dies, wo der kommerzielle ByteScout PDF Extractor SDK passen würde, da sie sowohl .NET und ActiveX bietet/COM-API.

Haftungsausschluss: Ich arbeite für ByteScout

Verwandte Themen