Ich suche nach Lösung des Problems. Ich muss eine Art Methode erstellen, die Liste der Wörter und nur Wörter erstellt, für jeden gegebenen Text, einschließlich nicht-Englisch Buchstaben und Sonderzeichen. Ich suchte viel und ich las Dokumentation here, aber irgendetwas davon funktioniert nicht perfekt für mich. Einer der besten ist diese:Teilen ganzen Text in Worte mit einer Regex
String line = " W metal, w liczbę, w trupie ciało, -"
String[] words = line.split("\\P{javaLetter}+");
for (int i = 0; i < words.length; i++) {
if (!words[i].equals("")) { // I don't want to check everytime
anotherList.add(word[i].toLowerCase())
}
}
}
aber das Ergebnis ist:
["", "W", "metal", "w", "liczbę", "w", "trupie", "ciało"]
Diese Leerzeichen am Anfang von String bricht mir das regex nach unten. Welches ist die richtige Regex für Wörter in einer beliebigen Sprache mit lateinischen Alphabet (achten Sie nicht auf Apostrophe in englischen Wörtern)?
haben Sie versucht line.split (“„)? es macht Sinn, auf Leerzeichen zu splitten, um die Wörter in einem Satz zu erhalten. Regex ist großartig, aber auch sehr flink. –
Drucken Sie Wörter oder eine andere Liste? –
@tobias_k offensichtlich Wörter, weil anotherList nicht die leere Zeichenfolge, die im ersten Index seines Ergebnisses existiert. –