ich mehrere XML-Dateien, die wie folgt aussehen:PySpark Zählen Zeilen, die Zeichenfolge enthalten
<?xml version="1.0" encoding="UTF-8"?>
<parent>
<row AcceptedAnswerId="15" AnswerCount="5" Body="<p>How should
I elicit prior distributions from experts when fitting a Bayesian
model?</p> " CommentCount="1" CreationDate="2010-07-
19T19:12:12.510" FavoriteCount="17" Id="1" LastActivityDate="2010-09-
15T21:08:26.077" OwnerUserId="8" PostTypeId="1" Score="26"
Tags="<bayesian><prior><elicitation>"
Title="Eliciting priors from experts" ViewCount="1457" />
Ich mag wäre in der Lage sein PySpark zu verwenden, um die Zeilen zu zählen, die die Zeichenfolge nicht enthalten: <row
Mein aktueller Gedanke:
def startWithRow(line):
if line.strip().startswith("<row"):
return True
else:
return False
sc.textFile(localpath("folder_containing_xmg.gz_files")) \
.filter(lambda x: not startWithRow(x)) \
.count()
ich diese Validierung haben versucht, aber ich Ergebnisse von selbst eine einfache Zählung Linien bekommen, dass ich keinen Sinn machen (heruntergeladen die xml Datei und machte eine wc
darauf, die nicht die Wortzahl von PySpark zusammengehörte.)
Fällt irgendetwas über meine Annäherung oben als falsch/sonderbar heraus?
Mögliche Duplikat von [Wie XML-Dateien in Apache Spark? Analysieren] (https://stackoverflow.com/questions/33280821/how-to-parse-xml-files-in-apache-spark) –