Python Pandas: Abrufen der ID von Daten aus einem Chunk

Der Datensatz wird Chunk für Chunk gelesen, weil es zu groß ist. Die IDs sind die erste Spalte und ich möchte sie in Datenstruktur wie Array speichern. Bis jetzt funktioniert es nicht. Es sieht so ausPython Pandas: Abrufen der ID von Daten aus einem Chunk

tf = pd.read_csv('data.csv', chunksize=chunksize) 
for chunk in tf: 
    here I wanna store the ids chunk["Id"] in an array

Wie mache ich das?

Quelle

2016-09-23 tumbler

, warum Sie nicht nur diese Spalte lesen? z.B. 'tf = pd.read_csv ('data.csv', usecols = ['Id'])'? – EdChum

IIUC Sie können es auf diese Weise tun:

ids = pd.DataFrame() 
tf = pd.read_csv('data.csv', chunksize=chunksize) 
for chunk in tf: 
    ids = pd.concat([ids, chunk['Id']], ignore_index=True)

Sie immer ids Series als NumPy Array zugreifen können:

ids.values

Quelle

2016-09-23 21:32:05 MaxU

Aber ich brauche auch den Rest der Reihe. Also benutze ich keine Usecols. – tumbler

Aber es ist nicht relevant für das aktuelle Problem. Ich habe deine vorherige Antwort so geändert, wie du es gerade getan hast. – tumbler

Wie kann ich den Spaltennamen als ID festlegen? – tumbler

Python Pandas: Abrufen der ID von Daten aus einem Chunk

Antwort

Verwandte Themen