Da ich die TXT-Datei nicht zur Verfügung stellen kann ich verwende ich nur die Situation beschreiben ...zusätzliche Spalten erstellt werden, wenn read.table mit
Die Textdatei keine fehlenden Werte und ist ein Register -getrennte Textdatei oder zumindest scheint es so zu sein. Wenn ich Tab-getrennte Trennzeichen verwende, scheint es in Ordnung zu sein. Die Spaltenüberschriften werden mit Namen versehen, die Leerzeichen enthalten (z. B. Alter des Übergeordneten).
Wenn ich die Daten mit der folgenden Codezeile lade, sieht es so aus, als ob alles richtig geladen wird. Ich lande jedoch mit einer Reihe von doppelten Spalten.
Zum Beispiel - „Age of Parent“ wird als Age.of.Parent relabeled werden, da Sie keine Leerzeichen in Spaltennamen haben können, aber es wird eine zweite Säule, die mit den Werten identisch ist aber hat den Namen - Age.of.Parent1
Frage: Was muss ich tun, um sicherzustellen, dass es keine dieser ‚Duplikat‘ Spalten erstellt werden? Die Spalte Age.of.Parent1 ist eindeutig nicht im Datensatz, aber von vielleicht 20 Spalten komme ich auf insgesamt 30 (10 neue Duplikate mit dieser '1' am Ende).
read.table('mydata.txt', header=TRUE, stringsAsFactors= FALSE, sep='\t')
Sie können 'check.names = false' in' read.table', aber in Bezug auf die doppelte Spalten Problem, ist es nicht klar, ohne eine reproduzierbares Beispiel – akrun
Ich kann dies reproduzieren, wenn ich eine Textdatei mit zwei Spalten mit den identischen Namen "Age of Parent" und "Age of Parent" erstelle und sie mit 'read.table' lese. Wahrscheinlich müssen Sie Ihre Quelldatei sorgfältig überprüfen, zumindest die Zeilen, in denen die zusätzlichen Spalten Daten enthalten. Mögliche Traps können doppelte Tabs "\ t \ t" sein oder das Ende der Zeile entfernt werden. Ohne jedoch die Daten zumindest in den obersten Zeilen anzuzeigen, ist dies alles spekulativ. – Uwe