ich eine Datei, die wie folgt aussieht - http://pastebin.com/u1A7v1CVLesen Sie eine Textdatei in einen Pandas Datenrahmen oder numpy Array
Es ist nur eine Stichprobe von zwei Zeilen aus einer Datei. Die Zeilen enthalten word_label_id
, gefolgt von freq
. Zum Beispiel word_label_id
1237 1 Mal in der ersten Reihe tritt, 1390 tritt 1 Mal und so weiter ...
ich diese spärliche Darstellung verwenden müssen, aber ich bin nicht in der Lage es zu einem DataFrame
zu konvertieren oder andere nutzbar Format.
Edit: Ich weiß, dass Pandas eine read_csv
Methode hat, wo ich ein Leerzeichen als Trennzeichen verwenden kann. Dies ist nicht ideal, da ich zwei Trennzeichen benötige - eines zwischen word_label_id
und freq
und ein anderes Trennzeichen zwischen diesem Paar und dem nächsten.
Ich brauche zwei verschiedene Trennzeichen - eine zwischen dem 'word_label_id' und' freq', die einen Raum und eine andere zwischen * dieser * sein kann ('word_label_id',' freq') Kombination und die nächste. – boltthrower
Das Aufzeichnen eines Makros in Notepad ++ könnte das Problem lösen, aber ich habe dies als Wiki-Antwort hinterlassen, da ich viele Details ausgelassen habe. –
* "... Tabs ersetzen als \ n" * Ich lade die Datei herunter. Es enthält keine Registerkarten. –