2016-09-23 4 views
0

Der Datensatz wird Chunk für Chunk gelesen, weil es zu groß ist. Die IDs sind die erste Spalte und ich möchte sie in Datenstruktur wie Array speichern. Bis jetzt funktioniert es nicht. Es sieht so ausPython Pandas: Abrufen der ID von Daten aus einem Chunk

tf = pd.read_csv('data.csv', chunksize=chunksize) 
for chunk in tf: 
    here I wanna store the ids chunk["Id"] in an array 

Wie mache ich das?

+0

, warum Sie nicht nur diese Spalte lesen? z.B. 'tf = pd.read_csv ('data.csv', usecols = ['Id'])'? – EdChum

Antwort

1

IIUC Sie können es auf diese Weise tun:

ids = pd.DataFrame() 
tf = pd.read_csv('data.csv', chunksize=chunksize) 
for chunk in tf: 
    ids = pd.concat([ids, chunk['Id']], ignore_index=True) 

Sie immer ids Series als NumPy Array zugreifen können:

ids.values 
+0

Aber ich brauche auch den Rest der Reihe. Also benutze ich keine Usecols. – tumbler

+0

Aber es ist nicht relevant für das aktuelle Problem. Ich habe deine vorherige Antwort so geändert, wie du es gerade getan hast. – tumbler

+0

Wie kann ich den Spaltennamen als ID festlegen? – tumbler