Unidentified Leerzeichen in Java

Auf einigen HTML von einer Webseite zu extrahieren, ich habe einige Elemente Text enthält, die in einer unbekannten oder nicht-passenden Leerzeichen enden (dh stimmt nicht überein „\\ s“):Unidentified Leerzeichen in Java

<span>Monday </span>

in Java, zu überprüfen, was dieses Zeichen ist, ich tue:

String s = getTheSpanContent(); 
char c = s.charAt(s.length() -1); 
int i = (int) c;

und der Wert von i: 160

Wer weiß, was das ist? Und wie kann ich dazu passen?

Dank

Quelle

2009-11-09 Richard H

Spiel für wie? Brauchen Sie die Regex oder würden Sie eine andere Methode verwenden? Was versuchst du auch damit zu erreichen? Wir können bessere Antworten mit mehr Informationen geben. –

Es ist ein non-breaking space. Nach der Pattern Javadocs, \\s entspricht [ \t\n\x0B\f\r], so müssen Sie explizit \xA0 zu Ihrem Regex hinzufügen, wenn Sie es übereinstimmen möchten.

Quelle

2009-11-09 17:47:21

ok, danke - das hängt mit der html-Quelle zusammen. Joels Lösung unten funktioniert auch. –

so meine Regex für die Übereinstimmung aller Leerzeichen inc. Nicht brechen ist: "[\\ s \\ xA0] +" - scheint zu funktionieren. Jubel um Hilfe. –

Die \u00A0 ist, auch als non-breaking Raum bekannt. Wenn Sie HTML kennen, werden Sie verstehen, dass es sich um denselben Raum handelt, der von   repräsentiert wird. Anscheinend benutzte man es anstelle eines normalen Raums.

Quelle

2009-11-09 17:46:20 BalusC

ok das macht Sinn. Ich kann in der Quelle sehen - aber mein Parser konvertierte es in dieses Zeichen, das \\ s nicht übereinstimmt. Prost –

Es war nicht klar aus Ihrer Frage, dass Sie nach einem Regex-Muster gesucht haben, das zu dem bestimmten Charakter passt. Wie auch immer, es ist gut zu wissen, dass dezimal 160 gleich hex A0 ist, damit Sie schließlich wissen, welcher Hexcode in Regex- und Unicode-Diagrammen verwendet werden soll. – BalusC

Versuchen Sie, diese mit Leerzeichen übereinstimmen

Character.isSpaceChar(c) || c <= ' ';

Quelle

2009-11-09 17:49:17 Joel

ich diese Tabelle einmal gemacht Sie einige der verschiedenen Definitionen von Leerzeichen in Java verwendet zu zeigen. Es ist ziemlich faszinierend (wenn du so komisch bist wie ich).

http://spreadsheets.google.com/pub?key=pd8dAQyHbdewRsnE5x5GzKQ

übrigens verfolgt Guava der CharMatcher.WHITESPACE den neuesten Unicode 5.x Standard und ist somit oft eine bessere Wahl als JDK Methoden.

http://guava-libraries.googlecode.com

Quelle

2009-11-09 21:45:41

Unidentified Leerzeichen in Java

Antwort

Verwandte Themen