2017-11-10 3 views
2

Ich habe versucht, einen Vektor japanischer Zeichenfolgen (der ursprünglich aus einer kommagetrennten Datei importiert wurde) mit einer Liste von Dateinamen aus einem Ordner unter Mac OSX abzugleichen.Vereinheitlichung von Ersatzpaaren in japanischen "dakuten" -Zeichen mithilfe von R

ein Element aus dem Vektor ist a:

> a 
[1] "立ち上げる.mp3" 

Das entsprechende Element aus dem Dateinamen b ist

> b 
[1] "立ち上げる.mp3" 

Das Problem ist, dass sie miteinander in R logisch nicht gleich sind:

> a == b 
[1] FALSE 

Ich habe bereits herausgefunden, dass dies ein ist Problem entstand aus den Ersatzpaaren der japanischen "dakuten" Zeichen (d. h. das Zeichen that, das durch Hinzufügen weiterer Punkte von け erweitert wurde. So sind sie in der Tat voneinander unterscheiden:

> iconv(a, "latin1") 
[1] "ç«\u008bã\u0081¡ä¸\u008aã\u0081\u0092ã\u0082\u008b.mp3" 
> iconv(b, "latin1") 
[1] "ç«\u008bã\u0081¡ä¸\u008aã\u0081\u0091ã\u0082\u0099ã\u0082\u008b.mp3" 

> nchar(a) 
[1] 9 
> nchar(b) 
[1] 10 

Wie konvertiere ich diese zwei Versionen der gleichen japanischen Zeichen, damit sie wirksam angepasst werden kann (das heißt sie sollten gleich sein) mit R?

Antwort

1

Es gibt eine Open-Source-Bridge-Bibliothek zum Aufrufen der ICU-Bibliothek RUnicode. Sie können den Suchschlüssel für NFD (Mac OS X-Stil) unter Mac OS X normalisieren.

Es normalisiert andere japanische Buchstaben wie volle Breite und halbe Breite Katakana, die für Ihren Zweck oder vielleicht nicht.

Verwandte Themen