Vereinheitlichung von Ersatzpaaren in japanischen "dakuten" -Zeichen mithilfe von R

Ich habe versucht, einen Vektor japanischer Zeichenfolgen (der ursprünglich aus einer kommagetrennten Datei importiert wurde) mit einer Liste von Dateinamen aus einem Ordner unter Mac OSX abzugleichen.Vereinheitlichung von Ersatzpaaren in japanischen "dakuten" -Zeichen mithilfe von R

ein Element aus dem Vektor ist a:

> a 
[1] "立ち上げる.mp3"

Das entsprechende Element aus dem Dateinamen b ist

> b 
[1] "立ち上げる.mp3"

Das Problem ist, dass sie miteinander in R logisch nicht gleich sind:

> a == b 
[1] FALSE

Ich habe bereits herausgefunden, dass dies ein ist Problem entstand aus den Ersatzpaaren der japanischen "dakuten" Zeichen (d. h. das Zeichen that, das durch Hinzufügen weiterer Punkte von け erweitert wurde. So sind sie in der Tat voneinander unterscheiden:

> iconv(a, "latin1") 
[1] "ç«\u008bã\u0081¡ä¸\u008aã\u0081\u0092ã\u0082\u008b.mp3" 
> iconv(b, "latin1") 
[1] "ç«\u008bã\u0081¡ä¸\u008aã\u0081\u0091ã\u0082\u0099ã\u0082\u008b.mp3" 

> nchar(a) 
[1] 9 
> nchar(b) 
[1] 10

Wie konvertiere ich diese zwei Versionen der gleichen japanischen Zeichen, damit sie wirksam angepasst werden kann (das heißt sie sollten gleich sein) mit R?

Quelle

2017-11-10 carl_pch

Es gibt eine Open-Source-Bridge-Bibliothek zum Aufrufen der ICU-Bibliothek RUnicode. Sie können den Suchschlüssel für NFD (Mac OS X-Stil) unter Mac OS X normalisieren.

Es normalisiert andere japanische Buchstaben wie volle Breite und halbe Breite Katakana, die für Ihren Zweck oder vielleicht nicht.

Quelle

2017-11-13 07:15:47 akky

Vereinheitlichung von Ersatzpaaren in japanischen "dakuten" -Zeichen mithilfe von R

Antwort

Verwandte Themen