Anzahl der eindeutigen Spaltenwerte aus großen CSV-Datei mit Python oder PHP

Ich habe eine Csv-Datei, die 217GB ist, wie kann ich die Anzahl der eindeutigen Spaltenwerte mit Python oder PHP-Skript ohne Zeitüberschreitung erhalten?Anzahl der eindeutigen Spaltenwerte aus großen CSV-Datei mit Python oder PHP

Quelle

2016-04-26 Ashwin Kumar

Wie @plsnoban erwähnt zu erhöhen, diese großen Dateien verarbeitet wird (von der Art der Größe) lange dauern, – salomonderossi

Nicht sicher, was Sie mit Timeout meinen, für große Dateien wie diese wird es immer eine lange Zeit dauern.

tokens = {} 
with open("your.csv") as infile: 
    for line in infile: 
     columns = line.split(',') 
     # Where idx is your desired column index 
     if columns[idx] not in tokens: 
      tokens[columns[idx]] = 0 
     else: 
      tokens[columns[idx]] += 1 

print tokens

Diese lädt die Datei Zeile für Zeile, so dass Ihr Compute von dem Laden der gesamten 217 Gb in den Arbeitsspeicher nicht abstürzt. Sie können dies zuerst ausprobieren, um zu sehen, ob das Wörterbuch in den Speicher Ihres Computers passt. Andernfalls möchten Sie vielleicht die Dateien in kleinere Teile aufteilen, um sie zu teilen.

Quelle

2016-04-26 06:19:59 plsnoban

-1

Sie könnten versuchen, die field_size_limit

import csv 
csv.field_size_limit(1000000000) 

r = csv.reader(open('doc.csv', 'rb')) 

for row in r: 
    print(row) # do the processing

Quelle

2016-04-26 06:20:08 salomonderossi

Anzahl der eindeutigen Spaltenwerte aus großen CSV-Datei mit Python oder PHP

Antwort

Verwandte Themen