Kann Apache Tika Fremdsprachen wie Chinesisch, Japanisch extrahieren?Kann Apache Tika Fremdsprachen wie Chinesisch, Japanisch extrahieren?
Ich habe den folgenden Code: „?“
Detector detector = new DefaultDetector();
Parser parser = new AutoDetectParser(detector);
InputStream stream = new ByteArrayInputStream(bytes);
OutputStream outputstream = new ByteArrayOutputStream();
ContentHandler textHandler = new BodyContentHandler(outputstream);
Metadata metadata = new Metadata();
// Set<String> langs = LanguageIdentifier.getSupportedLanguages();
// metadata.set(Metadata.CONTENT_LANGUAGE, lang);
// metadata.set(Metadata.FORMAT, hint);
ParseContext context = new ParseContext();
try {
parser.parse(stream, textHandler, metadata, context);
String extractedText = outputstream.toString();
return extractedText;
} catch (IOException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (TikaException e) {
e.printStackTrace();
}
Wenn die Eingabe eine doc-Datei ist, die chinesischen Zeichen enthält, die jeweils chinesische Schriftzeichen als extrahiert werden.
Vielen Dank!
Tika sollte in der Lage sein, sie gut zu behandeln. Sind Sie sicher, dass die Codierung korrekt ist, wenn Sie den Text ausgeben/anzeigen? (Hinweis - es muss höchstwahrscheinlich etwas wie UTF-8 sein, und Sie müssen es mit einer Schriftart anzeigen, die Zeichen für chinesische Zeichen enthält!) – Gagravarr