2016-03-23 2 views
0

I Liste haben, die regex Wert zu erhalten und fügen SieListe <String> mit Entitäten in UTF-8 zu kodieren

private static List<String> listaOfQuestion(Scanner sc, List<File> listaQuestion) { 
    List<String> question = new ArrayList<String>(); 
    for (File input1 : listaQuestion) { 
     try { 
      sc = new Scanner(input1); 
     } catch (FileNotFoundException e) { 
      e.printStackTrace(); 
     } 

     while (sc.hasNextLine()) { 
      Scanner s = new Scanner(sc.nextLine()); 
      while (s.hasNext()) { 
       String words = s.nextLine(); 
       try { 
        question.add(getTagValuesQ(words).toString()); 
       } catch (Exception e) { 
        // TODO Auto-generated catch block 
        e.printStackTrace(); 
       } 
      } 
     } 
    } 

    return question; 
} 

ich alle Wert analysieren möchten Liste wie

Liste Biela &#x144; ska Wyzi &#x144; ski Wci &#x15B; lik

Zu

Liste Bielańska Wyzińska Wciślik

Um UTF-8, ich bin Throught Forum suchen, und ich habe keine Lösung oder habe ich gerade nicht es. Ich schätze jede Form der Hilfe, aber weil ich neu bin, wird das beste Standardbeispiel oder etwas in der Art sein, das ich verstehen kann.

löste ich mein Problem, ich brauchte Verwendung

<...> 
Scanner s = new Scanner(sc.nextLine()); 
    while(s.hasNext()){ 
     String words = s.nextLine(); 
String decoded = org.apache.commons.lang3.StringEscapeUtils.unescapeHtml4(words); 
<...> 
+0

Wo Willst du das machen? Codierung? Ich kann keine Beispiele sehen, wo es in Ihrem Code verwendet würde. –

+1

Es gibt einen weiteren Konstruktor von Scanner: 'public Scanner (Dateiquelle, String charsetName)', wo Sie einen Zeichensatz angeben können. – Berger

+0

@Berger Das würde dekodieren, aber es ist die beste Vermutung, was das OP bedeutet. +1 –

Antwort

0

Ich habe versucht, Apache Commons Lang mit und löste es:

String s = "Biela&#x144;ska Wyzi&#x144;ski Wci&#x15B;lik"; 
    String decoded = org.apache.commons.lang3.StringEscapeUtils.unescapeHtml4(s); 
    System.out.println(decoded);   

Ausgang:

Bielańska Wyziński Wciślik 

https://commons.apache.org/proper/commons-lang/download_lang.cgi