2016-07-19 4 views
1

Ich bin Parsen eine Textdatei von einem Französisch hydrologischen Datenbank konvertieren, die Zeilen wie diese enthält:Wie akzentuierte Text in Klartext R

Date Q (m3/s) Validité F. exp. Libellé Fréquence exp 

Wenn R diese Zeilen entweder mit read.csv oder readLines liest, die Akzente diese sind mit Codes entkommen bilden:

Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp 

diese Escape-Codes verhindern einfache Grepl Befehle. So zum Beispiel:

grepl("Date", "Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp") 

erzeugt das folgende Ergebnis:

[1] FALSE 
Warning message: 
In grepl("Date", "Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp") : 
input string 1 is invalid in this locale 

Was ist der beste Weg, um mit diesem Escape-Codes zu tun, damit ich einfache Textverarbeitung anwenden kann?

Antwort

1

Geben Sie diesem einen Versuch:

namc <- readLines(con <- file('g:/filename.txt', "r", encoding='UTF-8')) close(con) cat(namc)

Denken Sie daran, den Dateinamen und den Pfad zu ändern. Sie sollten grepl und gsub verwenden können, um danach zu reinigen