Ich habe ein String s mit mehreren XML-Dateien unten angegeben:eine Zeichenfolge mit mehreren XML-Dateien in einen Datenrahmen in pyspark Parsing
['https://irs-form-990.s3.amazonaws.com/201611339349202661_public.xml',
'https://irs-form-990.s3.amazonaws.com/201611309349201761_public.xml',
'https://irs-form-990.s3.amazonaws.com/201543179349200944_public.xml',
'https://irs-form-990.s3.amazonaws.com/201631099349200733_public.xml',
'https://irs-form-990.s3.amazonaws.com/201610909349200511_public.xml',
'https://irs-form-990.s3.amazonaws.com/201630749349201058_public.xml',
'https://irs-form-990.s3.amazonaws.com/201601319349200235_public.xml',
'https://irs-form-990.s3.amazonaws.com/201641069349200909_public.xml',]
Ich habe 1000 in diesem String s und ich möchte, dass alle auf eine analysieren df mit pyspark
ich den Code unten bin mit:
df = sql.read.format("xml").options(rowTag="xyze").load(s).coalesce(10)
und es gibt mir und Fehler
habe ich auch
sc.addFile(s)
df4 = sql.read.format("xml").options(rowTag="xyze").load(pyspark.SparkFiles.get("*_public.xml"))
Es wird mir den gleichen Fehler wie Path to XML geben müssen
angegeben werden, und ich bin mit jupyter Notebook für alle diese.
Jede Art von Hilfe wäre willkommen.