2017-08-25 4 views
1

Ich habe einige Probleme mit der Codierung, wenn Sie versuchen, eine Regierung Seite in Portugiesisch zu vernetzen. Dies ist mein Code:Probleme mit lateinischen Zeichen mit htmlparse in r

library("RCurl") 

library("XML") 

html = getURL("http://sei.cade.gov.br/sei/institucional/pesquisa/documento_consulta_externa.php?u0r2HDE7WIdiBH3O1y0Dr6krqmN-VVCNjJtZWrdX1mgt3CiIC_RM90F01GwwNk20muowNXaYKrI2Ob8UQUkAoA,,") 

par = htmlParse(html) 

x = xpathSApply(par, "//strong", xmlValue)[1] 

print(x) 

[1] "NOTA TÉCNICA Nº 58/2017/CGAA6/SGA2/SG/CADE" 

ich einige Dinge ausprobiert habe, wie das Hinzufügen von encoding="latin1" und encoding="UTF-8" zum htmlParse und das Hinzufügen von .encoding="latin" und .encoding="UTF-8" zum getURL.

Mein System scheint an die richtige Stelle gesetzt werden, wie Sys.getlocale() gibt mir

Sys.getlocale() 
[1] "LC_COLLATE=Portuguese_Brazil.1252;LC_CTYPE=Portuguese_Brazil.1252;LC_MONETARY=Portuguese_Brazil.1252;LC_NUMERIC=C;LC_TIME=Portuguese_Brazil.1252" 

ich hier aus Ideen bin, und jede mögliche Hilfe schätzen würde.

Antwort

0

Ich konnte dies mit Ihrem Code mit einem Zusatz zu arbeiten.

## Your code 
library("RCurl") 
library("XML") 
html = getURL("http://sei.cade.gov.br/sei/institucional/pesquisa/documento_consulta_externa.php?u0r2HDE7WIdiBH3O1y0Dr6krqmN-VVCNjJtZWrdX1mgt3CiIC_RM90F01GwwNk20muowNXaYKrI2Ob8UQUkAoA,,") 
par = htmlParse(html) 
x = xpathSApply(par, "//strong", xmlValue)[1] 

## Addition 
x2 = iconv(x, from="UTF-8", to="latin1") 
print(x2) 
"NOTA TÉCNICA Nº 58/2017/CGAA6/SGA2/SG/CADE" 
+0

Danke ein Haufen, das funktioniert für mich! Es ist lustig, wie (bisher) das die einzige Seite war, die mir dieses spezifische Problem gegeben hat. –

Verwandte Themen