Ich habe versucht, einen Vektor japanischer Zeichenfolgen (der ursprünglich aus einer kommagetrennten Datei importiert wurde) mit einer Liste von Dateinamen aus einem Ordner unter Mac OSX abzugleichen.Vereinheitlichung von Ersatzpaaren in japanischen "dakuten" -Zeichen mithilfe von R
ein Element aus dem Vektor ist a
:
> a
[1] "立ち上げる.mp3"
Das entsprechende Element aus dem Dateinamen b
ist
> b
[1] "立ち上げる.mp3"
Das Problem ist, dass sie miteinander in R logisch nicht gleich sind:
> a == b
[1] FALSE
Ich habe bereits herausgefunden, dass dies ein ist Problem entstand aus den Ersatzpaaren der japanischen "dakuten" Zeichen (d. h. das Zeichen that, das durch Hinzufügen weiterer Punkte von け erweitert wurde. So sind sie in der Tat voneinander unterscheiden:
> iconv(a, "latin1")
[1] "ç«\u008bã\u0081¡ä¸\u008aã\u0081\u0092ã\u0082\u008b.mp3"
> iconv(b, "latin1")
[1] "ç«\u008bã\u0081¡ä¸\u008aã\u0081\u0091ã\u0082\u0099ã\u0082\u008b.mp3"
> nchar(a)
[1] 9
> nchar(b)
[1] 10
Wie konvertiere ich diese zwei Versionen der gleichen japanischen Zeichen, damit sie wirksam angepasst werden kann (das heißt sie sollten gleich sein) mit R?