Hat jemand einen Code zum Alphabetisieren von arabischem und japanischem Text in Unicode? Wenn der Code in Ruby wäre, wäre das großartig.Alphabetisch arabischer und japanischer Text in Unicode?
Antwort
Unicode-Codepunkte sind nicht in alphabetischer Reihenfolge aufgeführt (Z < a, zum Beispiel), aber sie versuchen, ungefähr in dieser Reihenfolge trotzdem zu sein. Es gibt eine kanonische Unicode-Reihenfolge, definiert durch die Unicode Collation Algorithm und sie sind auch sprachspezifische Reihenfolge (Französisch Reihenfolge ist nicht genau die gleiche wie deutsche oder tschechische Reihenfolge, auch mit dem gleichen Alphabet), die in Gebietsschema Informationen angegeben werden können. Ich denke, die ICU library enthält die sprachspezifischen Algorithmen, nach denen Sie suchen.
Ich weiß Ruby nicht, aber Python hat eine Funktion, ord(), die ein Unicode-Sonderzeichen in seinen Unicode-Codepunkt übersetzt. Zum Beispiel
>>> a = u'ل'
>>> ord(a)
0: 1604
>>> b = u'ع'
>>> ord(b)
1: 1593
Suchen Sie nach etwas in Ruby. Ich nehme an, dass die arabischen Symbole in Unicode in alphabetischer Reihenfolge aufgeführt sind.
Würde dies bei dieser Frage helfen? Wenn wir dies mit gewöhnlichen lateinischen Zeichen machen würden, würde das bedeuten, dass Buchstaben zuerst in Groß- oder Kleinbuchstaben sortiert würden, was in manchen Situationen nicht sinnvoll wäre. –
Richtig, wenn das auch für Arabisch und Japanisch gilt, würde das OP wohl dafür verantwortlich sein. –
Um die offensichtliche Frage zu stellen, was magst du nicht an ?
Funktioniert mylist.sort mit Unicode und kennt die alphabetische Reihenfolge des arabischen oder japanischen Alphabets? –
... warum versuchst du es nicht und siehst es? –
Je nach Ihren Bedürfnissen words.sort
in Rubin wird für Japaner in Ordnung sein. Die Reihenfolge, in der die Zeichen in Unicode angezeigt werden, ist in einer einigermaßen guten Sortierreihenfolge. Ich kann zwar nicht für Arabisch garantieren, aber meine Vermutung ist, dass es auch in Ordnung ist.
sollte out of the box in Ruby 1.9 funktionieren (die integrierte Unicode-Unterstützung hat). In Ruby 1.8, wo die Unicode-Unterstützung nicht eingebaut ist, denke ich, dass Sie die character-encodings
Perle verwenden müssen, um die String-Klasse mit UTF-8 String-Vergleichen zu erweitern. (Und dann würde funktionieren.)
- 1. Arabischer Text in as3
- 2. PHP-Datei-Uploads - Handhabung arabischer/chinesischer/japanischer Dateinamen
- 3. Sortieren japanischer Text mit „aiueo“ Ordnung
- 4. Übereinstimmender arabischer Text mit Regex
- 5. NSDateFormatter und japanischer Kalender
- 6. Javafx 2.0 arabischer Text Falsche Reihenfolge
- 7. Anzeige japanischer Text kam aus der Datenbank in PHP
- 8. Implementieren japanischer Lokalisierung
- 9. Arabischer Text zeigt in Webapp ohne db Änderungen
- 10. Verwenden arabischer Zeichen in Sparql in Python?
- 11. Japanischer COBOL-Code: Regeln für G-Literale und Bezeichner?
- 12. Unicode-Text rückwärts dekodieren
- 13. sdl Unicode-Text
- 14. Tabellenzellenwert abrufen und alphabetisch sortieren
- 15. UITextView attributiedText mit japanischer Tastatur wiederholt Eingabe
- 16. Tokenisierung arabischer Wörter mit NLTK
- 17. Hardware beschleunigte Unicode-Text-Rendering
- 18. Unicode-Text in Java lesen und auf JLabel anzeigen?
- 19. C# Schaltfläche Text Unicode-Zeichen
- 20. Unicode-Text nicht korrekt in AWT Label-
- 21. Bestellliste alphabetisch
- 22. Lesen Unicode-Text aus Vermögenswerten
- 23. mit Unicode-Text in SQL-Server 2008
- 24. Wie konvertiert man Unicode-Text in normalen Text
- 25. mysql sortiere alphabetisch und Nummer
- 26. Quicksorting alphabetisch und nach Zeichenlänge
- 27. Datepicker kein Datum in arabischer Kultur
- 28. Alphabetisch in Schienen sortieren
- 29. Sortierung alphabetisch in Java
- 30. Werte in Spalten alphabetisch speichern?
Ich sehe nicht, was das speziell mit dem iPhone zu tun hat. –
Die arabischen und japanischen Schriftzeichen sind Teil des arabischen, japanischen Alphabets. Ich denke, manche Leute könnten deine Frage als Beleidigung betrachten. – johannes
@johannes: Ich glaube nicht, "alphabetisch" bedeutet "Umwandlung in ein englisches Alphabet", sondern "Sortierung in der richtigen Reihenfolge". –