Ich habe einige Probleme mit der Codierung, wenn Sie versuchen, eine Regierung Seite in Portugiesisch zu vernetzen. Dies ist mein Code:Probleme mit lateinischen Zeichen mit htmlparse in r
library("RCurl")
library("XML")
html = getURL("http://sei.cade.gov.br/sei/institucional/pesquisa/documento_consulta_externa.php?u0r2HDE7WIdiBH3O1y0Dr6krqmN-VVCNjJtZWrdX1mgt3CiIC_RM90F01GwwNk20muowNXaYKrI2Ob8UQUkAoA,,")
par = htmlParse(html)
x = xpathSApply(par, "//strong", xmlValue)[1]
print(x)
[1] "NOTA TÉCNICA Nº 58/2017/CGAA6/SGA2/SG/CADE"
ich einige Dinge ausprobiert habe, wie das Hinzufügen von encoding="latin1"
und encoding="UTF-8"
zum htmlParse
und das Hinzufügen von .encoding="latin"
und .encoding="UTF-8"
zum getURL
.
Mein System scheint an die richtige Stelle gesetzt werden, wie Sys.getlocale() gibt mir
Sys.getlocale()
[1] "LC_COLLATE=Portuguese_Brazil.1252;LC_CTYPE=Portuguese_Brazil.1252;LC_MONETARY=Portuguese_Brazil.1252;LC_NUMERIC=C;LC_TIME=Portuguese_Brazil.1252"
ich hier aus Ideen bin, und jede mögliche Hilfe schätzen würde.
Danke ein Haufen, das funktioniert für mich! Es ist lustig, wie (bisher) das die einzige Seite war, die mir dieses spezifische Problem gegeben hat. –