2017-06-14 3 views
0

Ich habe Probleme mit der Codierung von solr. Wir haben das "gleiche" Setup auf zwei verschiedenen Servern, aber einer von ihnen ist in der Lage, das Dokument ohne zu indizieren. Zeichen, aber der Testserver hat Probleme damit.Java-Codierung mit Solr und Tomcat

Exemples von Solr Ergebnisse:
Prod Server:

effet sur l’acquisition des connaissances »\n\n#12;#12;EFFET D’UNE SÉQUENCE 

Test Server:

effet sur l’acquisition des connaissances »\n\n��EFFET D’UNE SÉQUENCE D’ENSEIGNEMENTS 

Ich habe die gleiche Version von Java auf beiden Servern ausgeführt wird:

java version "1.7.0_80" 
Java(TM) SE Runtime Environment (build 1.7.0_80-b15) 
Java HotSpot(TM) 64-Bit Server VM (build 24.80-b11, mixed mode) 

Beide haben dieselben Java-Optionen:

JAVA_OPTS=" -Dfile.encoding=UTF-8 " 

Beide haben die gleichen Java-Eigenschaften (in der Benutzeroberfläche).

Was bedeutet # 12; bedeuten?

Wo könnte das Problem liegen?

OS:

  • Ubuntu 14,04

Software:

  • Tomcat 8.0.43
  • Dspace 6.0
  • Solr 4.10.4

EDIT: Ausgabe von locale auf beiden Servern:

LANG=en_CA.utf8 
LANGUAGE=en_CA:en 
LC_CTYPE="en_CA.utf8" 
LC_NUMERIC="en_CA.utf8" 
LC_TIME="en_CA.utf8" 
LC_COLLATE="en_CA.utf8" 
LC_MONETARY="en_CA.utf8" 
LC_MESSAGES="en_CA.utf8" 
LC_PAPER="en_CA.utf8" 
LC_NAME="en_CA.utf8" 
LC_ADDRESS="en_CA.utf8" 
LC_TELEPHONE="en_CA.utf8" 
LC_MEASUREMENT="en_CA.utf8" 
LC_IDENTIFICATION="en_CA.utf8" 
LC_ALL= 

Thank you!

+0

Wie lautet die Ausgabe des Befehls "locale" auf beiden Servern? –

+0

Ich habe vergessen, es zu erwähnen, ich fügte juste es dem Beitrag hinzu –

Antwort

0

Das Problem lag nicht in der Codierung, sondern in der Art, wie DSpace funktioniert. Ich hatte den Befehl auszuführen:

./dspace filter-media -f 

Dieser Befehl wird regeneriert die TXT-Datei aus PDF und indiziert das Dokument. Jedes Mal, wenn ich versuchte, das Dokument mit der richtigen Codierung zu indexieren, änderte es nichts.