Ich habe einen Datensatz von hundert Millionen Zeilen, von denen etwa 10 eine Art von Unicode Ersatzzeichen haben. Die Textdarstellung dieses speziellen Zeichens ist "< U + FFFD>" (Leerzeichen entfernen), es gibt jedoch auch andere.r - Entfernen Unicode Ersatzzeichen aus einer Zeichenfolge
Ich möchte den Charakter entfernen, aber ich war nicht in der Lage, einen Weg zu finden, das zu tun.
str <- "торгово производственн��я компания"
gsub("<U+FFFD>", "", str)
"торгово производственн��я компания"
Wenn ich zusätzliche Informationen zur Verfügung stellen müssen, lassen Sie es mich bitte wissen. Auch wäre ich sehr dankbar für eine Erklärung, was genau hier passiert (wie in warum eine normale gsub nicht funktioniert und warum es so anzeigt)
Versuchen 'gsub ("\ uFFFD", "", str, fest = TRUE)' –
@ WiktorStribiżew Danke, das hat perfekt funktioniert – Alexvonrass