2013-03-26 11 views
5

Kann Apache Tika Fremdsprachen wie Chinesisch, Japanisch extrahieren?Kann Apache Tika Fremdsprachen wie Chinesisch, Japanisch extrahieren?

Ich habe den folgenden Code: „?“

Detector detector = new DefaultDetector(); 
    Parser parser = new AutoDetectParser(detector); 
    InputStream stream = new ByteArrayInputStream(bytes); 
    OutputStream outputstream = new ByteArrayOutputStream(); 
    ContentHandler textHandler = new BodyContentHandler(outputstream); 
    Metadata metadata = new Metadata(); 
    // Set<String> langs = LanguageIdentifier.getSupportedLanguages(); 
    // metadata.set(Metadata.CONTENT_LANGUAGE, lang); 
    // metadata.set(Metadata.FORMAT, hint); 
    ParseContext context = new ParseContext(); 
    try { 
     parser.parse(stream, textHandler, metadata, context); 
     String extractedText = outputstream.toString(); 
     return extractedText; 
    } catch (IOException e) { 
     e.printStackTrace(); 
    } catch (SAXException e) { 
     e.printStackTrace(); 
    } catch (TikaException e) { 
     e.printStackTrace(); 
    } 

Wenn die Eingabe eine doc-Datei ist, die chinesischen Zeichen enthält, die jeweils chinesische Schriftzeichen als extrahiert werden.

Vielen Dank!

+0

Tika sollte in der Lage sein, sie gut zu behandeln. Sind Sie sicher, dass die Codierung korrekt ist, wenn Sie den Text ausgeben/anzeigen? (Hinweis - es muss höchstwahrscheinlich etwas wie UTF-8 sein, und Sie müssen es mit einer Schriftart anzeigen, die Zeichen für chinesische Zeichen enthält!) – Gagravarr

Antwort

0

Ich habe nicht überall geschrieben gesehen, dass Apache Tika nicht Fremdsprachen wie Chinesisch und Japanisch unterstützt. Aber beim Betrachten der folgenden Apache Tika Quelldatei, konnte ich nicht beide Sprachen finden.

http://svn.apache.org/repos/asf/tika/branches/1.4/tika-core/src/main/resources/org/apache/tika/language/tika.language.properties

jedoch immer noch in gleicher Weise die Umsetzung ausprobieren kann, wie es in fünf Minuten Anleitung diskutiert mit Ihrer chinesischen Doc-Datei ist in der Lage

https://tika.apache.org/1.4/parser_guide.html

+1

Der Code, auf den Sie verweisen, ist für * Spracherkennung * nicht geeignet für die Textextraktion, die ein anderes Stück von Tika ist – Gagravarr

1

Apache Tika zu testen Unicode zu extrahieren Text aus den unterstützten Dateiformaten. Solange das Dateiformat Unicode-Text speichern kann (z. B. chinesische oder japanische Zeichen), kann Apache Tika es extrahieren.

Tika enthält auch eine Reihe von Komponententests, die bestätigen, dass es funktioniert. Ein solcher Test verwendet this sample chinese email. Wenn unter Verwendung der Befehlszeile Tika App, und die ersten paar Zeilen greifen, sehen wir es arbeiten:

$ java -jar tika-app-1.4.jar --text testMSG_chinese.msg | head 
Alfresco MSG format testing (MSG 格式測試) 
    From 
    Tests [email protected] (張毓倫) 
    To 
    Tests [email protected] (張毓倫) 
    Recipients 
    [email protected] 

Oder mit diesem Japanese document:

$ java -jar tika-app-1.4.jar --text testRTFJapanese.rtf | head -2 
ゾルゲの処刑記録、 
ゾルゲと尾崎、淡々と最期  

Sie werden nur, dass jeder Text sicherstellen müssen, Die Ausgabe, die Sie generieren, wird in einer geeigneten Kodierung gespeichert (zB utf8), und die Schriftart, mit der Sie sie anzeigen, unterstützt diese Glyphen!

Verwandte Themen