Ich versuche, zu extrahieren den Text aus dem PDF (Attachment-Link) mit dem Code (lib itext7) unter „Kann keine Bilddaten oder EI finden“:Versuchen Sie, ein PDF öffnen, erhalte ich die Fehler mit lib iTextSharp 7
public static PageDescribe GetTextFromPage(PdfDocument fullDoc, int pageNum)
{
if (pageNum < 1)
return null;
else
{
PdfPage page = fullDoc.GetPage(pageNum);
if (page == null)
return null;
else
{
LocatedTextStrategy lStrat = new LocatedTextStrategy();
string s = PdfTextExtractor.GetTextFromPage(page, lStrat,);
DateTime _startPoint = DateTime.Now;
lStrat.Points.Defragmentation();
PageDescribe _res = new PageDescribe(pageNum, lStrat.Points);
return _res;
}
}
}
}
aber ich habe den Fehler nicht-Bilddaten oder EI finden:
Wenn ich manuell entfernen Sie die ursprüngliche logo der pdf dieser Fehler nicht auftritt. Aber ich kann das Quellsystem, das diese Dateien bereitstellt, nicht ändern.
jemand irgendwelche Vorschläge?
Können Sie den entsprechenden Code von 'LocatedTextStrategy' anzeigen? –
Auch scheint es 'PdfTextExtractor.GetTextFromPage();' '3 Argumente, [wie hier] (https://stackoverflow.com/a/5003230/6741868). –
Hallo @Keyur, ich benutze itext7, es gibt 3 Überladungen. Erste Überladung erhalten nur Pdfpage, zweite Überladung erhalten PdfPage und ITextExtractionStrategy (mein Code). Die dritte Überladung empfängt PdfPage, ITextExtractionStrategy und IDictionary. Der PdfReader, wie Ihr Link, ist nicht notwendig –