Speichern pandas Datenrahmen als CSV auf gcloud Speichereimer

from pyspark import SparkContext, SparkConf 
from pyspark.sql import SparkSession 
import gc 
import pandas as pd 
import datetime 
import numpy as np 
import sys 



APP_NAME = "DataFrameToCSV" 

spark = SparkSession\ 
    .builder\ 
    .appName(APP_NAME)\ 
    .config("spark.sql.crossJoin.enabled","true")\ 
    .getOrCreate() 

group_ids = [1,1,1,1,1,1,1,2,2,2,2,2,2,2] 

dates = ["2016-04-01","2016-04-01","2016-04-01","2016-04-20","2016-04-20","2016-04-28","2016-04-28","2016-04-05","2016-04-05","2016-04-05","2016-04-05","2016-04-20","2016-04-20","2016-04-29"] 

#event = [0,1,0,0,0,0,1,1,0,0,0,0,1,0] 
event = [0,1,1,0,1,0,1,0,0,1,0,0,0,0] 

dataFrameArr = np.column_stack((group_ids,dates,event)) 

df = pd.DataFrame(dataFrameArr,columns = ["group_ids","dates","event"])

Der obige Python-Code soll auf einem Funkencluster auf gcloud dataproc ausgeführt werden. Ich möchte den Pandas Dataframe als CSV-Datei in gcloud Speichereimer bei gs speichern: // mybucket/csv_data/Speichern pandas Datenrahmen als CSV auf gcloud Speichereimer

Wie mache ich das?

Quelle

2017-08-03 Srikant Chari

Also, habe ich herausgefunden, wie dies zu tun. Anknüpfend an den obigen Code ist, hier die Lösung:

sc = SparkContext.getOrCreate() 

from pyspark.sql import SQLContext 
sqlCtx = SQLContext(sc) 
sparkDf = sqlCtx.createDataFrame(df)  
sparkDf.coalesce(1).write.option("header","true").csv('gs://mybucket/csv_data')

Quelle

2017-08-03 23:15:20

Speichern pandas Datenrahmen als CSV auf gcloud Speichereimer

Antwort

Verwandte Themen