Ich habe diesen Code und ich verwende es, um den Text einer PDF zu nehmen. Es ist großartig für ein PDF in Englisch, aber wenn ich versuche, den Text in Arabisch zu extrahieren, zeigt es mir so etwas.Extrahieren von arabischem Text in C# mit Hilfe von itextsharp
") + n 9 n < +, +) + $ # $ + $ F% 9 & < $:;."
using (PdfReader reader = new PdfReader(path))
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
String text = "";
for (int i = 1; i <= reader.NumberOfPages; i++)
{
text = PdfTextExtractor.GetTextFromPage(reader, i,strategy);
}
Das sieht umgekehrt wie das pdf nicht enthält die Informationen, die für die Textextraktion gemäß der PDF-Spezifikation benötigt werden. – mkl
Haben Sie das versucht http://stackoverflow.com/questions/35436158/itextsharp-cant-extract-pdf-unicode-content-in-c-sharp? – KMoussa
nein, es gibt viele Wörter, aber die itextsharp Codes die arabischen Wörter –