Ich habe ~ 40GB Daten in mehrere JSON-Dateien aufgeteilt und in Google Storage gespeichert. Ich möchte all diese Daten als Datenframe in Datalab lesen, um eine Analyse durchzuführen.Schnellste Möglichkeit, große Datenmengen in Google Datalab zu lesen?
Bisher habe ich meine Daten laut Datalab Tutorials gelesen, aber es dauert 1-2 Stunden. Irgendwelche Vorschläge, um es effizienter zu lesen?
Mein Code sieht wie folgt aus:
def export_data(log_name,path):
log_path = path + log_name + '.json'
data = storage.Item('my-bucket', log_path).read_from()
return data
file_names = ['file_01',..,'file_60']
path = 'my-bucket/path'
dataset = [export_data(file_name,path) for file_name in file_names]
data_frames = [pd.read_json(StringIO(data)) for data in dataset]
df = pd.concat([data_frame for data_frame in data_frames],axis=0)