Ich benutze itextsharp auf vb.net, um den Textinhalt aus einer PDF-Datei zu erhalten. Die Lösung funktioniert gut für einige Dateien, aber nicht für andere, auch nicht ganz einfache. Das Problem ist, dass das Token string auf null gesetzt ist (eine Reihe von leeren Kästchen)Itextsharp Textextraktion
token = New iTextSharp.text.pdf.PRTokeniser(pageBytes)
While token.NextToken()
tknType = token.TokenType()
tknValue = token.StringValue
ich die Länge des Inhalts meassure kann, aber ich kann nicht die tatsächliche Zeichenfolge Inhalt bekommen.
Ich erkannte, dass dies abhängig von der Schriftart der PDF geschieht. Wenn ich ein PDF-Dokument unter Verwendung von Acrobat oder PdfCreator mit Courier (das ist übrigens die Standardschrift in meinem visuellen Studio-Editor) erstelle, kann ich den gesamten Textinhalt abrufen. Wenn das gleiche PDF mit einer anderen Schriftart erstellt wird, habe ich die leeren quadratischen Felder.
Jetzt ist die Frage, wie kann ich Text unabhängig von der Schriftarteinstellung extrahieren?
Dank
+1 für ein vollständiges Beispiel für den Code zu geben, anstatt nur eine einzige Zeile –
ist es möglich, mit iTextSharp Datei auf ‚FTP-Server‘ zu extrahieren? – Munavvar
@Munavvar, leider hatte ich keine solche Erfahrung. aber in der Regel können Sie von FTP in frs Dateistrom oder Binärdateien lesen und füttern die ItextSharp –