Ich versuche, Text aus PDF zu extrahieren und in eine JSON-Datei schreiben. Beim Extrahieren von Unicode-Zeichen konvertiert der Json alle & in \ u0026. Zum Beispiel ist mein tatsächlicher String ش
. (was ش darstellt). Es wird korrekt in eine TXT-Datei gedruckt, um zu trösten usw. Aber wenn ich versuche, diese Zeichenfolge in eine JSON-Datei zu drucken, wird \u0026#1588;
angezeigt.Json wandelt & in einem String in u0026
Ich bin mit Java, und der Code ist
Gson gson = new Gson();
String json = gson.toJson(pdfDoc);
Hinweis: pdfDoc
ist ein Objekt, das alle Details enthält (Position, Farbe, Schriftart .. etc) von Zeichen innerhalb des Eingangs-PDF-Dokument. Ich benutze gson-2.2.1.jar
.
Danke. Es funktionierte. Ich habe den Code in Gson geändert gson = new GsonBuilder(). DisableHtmlEscaping(). Create(); – Neeraj