2017-11-23 5 views
0

Ich habe ein String s mit mehreren XML-Dateien unten angegeben:eine Zeichenfolge mit mehreren XML-Dateien in einen Datenrahmen in pyspark Parsing

['https://irs-form-990.s3.amazonaws.com/201611339349202661_public.xml', 
'https://irs-form-990.s3.amazonaws.com/201611309349201761_public.xml', 
'https://irs-form-990.s3.amazonaws.com/201543179349200944_public.xml', 
'https://irs-form-990.s3.amazonaws.com/201631099349200733_public.xml', 
'https://irs-form-990.s3.amazonaws.com/201610909349200511_public.xml', 
'https://irs-form-990.s3.amazonaws.com/201630749349201058_public.xml', 
'https://irs-form-990.s3.amazonaws.com/201601319349200235_public.xml', 
'https://irs-form-990.s3.amazonaws.com/201641069349200909_public.xml',] 

Ich habe 1000 in diesem String s und ich möchte, dass alle auf eine analysieren df mit pyspark

ich den Code unten bin mit:

df = sql.read.format("xml").options(rowTag="xyze").load(s).coalesce(10) 

und es gibt mir und Fehler

habe ich auch

sc.addFile(s) 
df4 = sql.read.format("xml").options(rowTag="xyze").load(pyspark.SparkFiles.get("*_public.xml")) 

Es wird mir den gleichen Fehler wie Path to XML geben müssen

angegeben werden, und ich bin mit jupyter Notebook für alle diese.

Jede Art von Hilfe wäre willkommen.

Antwort

0

Dies kann, weil die Lage von XML-Dateien an diffrent Ort, wo die Skripte

ausgeführt werden, können Sie unter Dinge versuchen

1) Fügen Sie den Speicherort von XML-Dateien in die Umgebungsvariable

2) Wenn das Problem nicht gelöst wird, erstellen Sie eine PPTHONPATH-Umgebungsvariable und geben Sie den Standort hier an.

3) Sie können einfach unter dem folgenden Code

versuchen
import os 
os.chdir(xmlfilepath) 
sc.addFile(s) 
df4 = sql.read.format("xml").options(rowTag="xyze").load(pyspark.SparkFiles.get("*_public.xml")) 

Dies sollte funktionieren

Verwandte Themen