Parse XML-Daten in Apache Spark

Ich muss wissen, wie Sie XML-Datei in Spark analysieren. Ich empfange Streaming-Daten von Kafka und muss dann diese gestreamten Daten analysieren.Parse XML-Daten in Apache Spark

Hier ist meine Spark-Codedaten zu erhalten:

directKafkaStream.foreachRDD(rdd ->{ 
      rdd.foreach(s ->{ 
       System.out.println("&&&&&&&&&&&&&&&&&" +s._2); 
      });

und Ergebnisse:

<root> 
<student> 
<name>john</name> 
<marks>90</marks> 
</student> 
</root>

Wie diese XML-Elemente zu übergeben?

Quelle

2016-09-26 user6325753

Sie haben nach vorherigen Fragen zu diesem Thema gesucht? Wie: http://stackoverflow.com/questions/33078221/xml-processing-in-spark –

@Binary Nerd, Danke für die Antwort. Meine Funkenanwendung liest Daten Zeile für Zeile. Also muss ich Zeile für Zeile analysieren, ohne Startelement und/oder Endelement zu verwenden. – user6325753

Danke Jungs .. Problem gelöst. Hier ist die Lösung.

String xml = "<name>xyz</name>"; 
DOMParser parser = new DOMParser(); 
try { 
    parser.parse(new InputSource(new java.io.StringReader(xml))); 
    Document doc = parser.getDocument(); 
    String message = doc.getDocumentElement().getTextContent(); 
    System.out.println(message); 
} catch (Exception e) { 
    // handle SAXException 
}

Quelle

2016-09-26 13:13:17 user6325753

Funktioniert das mit Big Data in Spark? –

@MasudRahman, bitte sehen Sie sich den Link https://StackOverflow.com/questions/33078221/xml-processing-in-spark/40653300#40653300 an – user6325753

Bei der Verarbeitung von Streaming-Daten wäre es hilfreich, die spark-xml-Libelle von Databricks für die XML-Datenverarbeitung zu verwenden.

Referenz: https://github.com/databricks/spark-xml

Quelle

2016-09-26 08:18:00

Danke für die Antwort. Meine Funkenanwendung liest Daten Zeile für Zeile. Also muss ich Zeile für Zeile analysieren, ohne Startelement und/oder Endelement zu verwenden. – user6325753

Ich habe einige Stunden damit verbracht, und dann habe ich festgestellt, dass es nicht selbstschließende Zeilen liest. –

Parse XML-Daten in Apache Spark

Antwort

Verwandte Themen