Wer weiß, wie Funken seine Anzahl von Datensatz nicht berechnen (ich glaube, es ist das gleiche wie die Anzahl der Ereignisse in einer Charge), wie hier angezeigt?Wie erhält man die Gesamtzahl der Datensätze, die von Spark Streaming verarbeitet werden?
Ich versuche, herauszufinden, wie ich remote diesen Wert bekommen kann (REST-API gibt es in der Benutzeroberfläche für Streaming-Option nicht).
Im Grunde, was ich versuche, es zu tun, um die Gesamtzahl der Datensätze durch meinen Antrag bearbeitet zu bekommen. Ich brauche diese Informationen für das Webportal.
Ich versuchte, die Records
für jede Stufe zu zählen, aber es gab mir ganz andere Zahl, wie er oben auf dem Bild ist. Jede Stufe enthält Informationen über ihre Aufzeichnungen. Wie hier
Ich bin mit diesem kurzen Python-Skript der „inputRecords“, von jeder Stufe zu zählen. Dies ist der Quellcode:
import json, requests, urllib
print "Get stages script started!"
#URL REST-API
url = 'http://10.16.31.211:4040/api/v1/applications/app-20161104125052-0052/stages/'
response = urllib.urlopen(url)
data = json.loads(response.read())
stages = []
print len(data)
inputCounter = 0
for item in data:
stages.append(item["stageId"])
inputCounter += item["inputRecords"]
print "Records processed: " + str(inputCounter)
Wenn ich es richtig verstanden: Jede Batch
ein Job
hat, und jeder Job
hat mehrere Stages
, diese Stages
haben mehrere Tasks
.
für mich So machte es Sinn, den Eingang für jeden Stage
zu zählen.
Was hast du probiert? Bitte posten Sie einige Beispieldaten und Code und teilen Sie uns mit, was nicht für Sie funktioniert. Überprüfen Sie auch diesen Link: stackoverflow.com/help/mcve. – CGritton
Vielleicht sollte die Frage "Wie bekomme ich die Gesamtzahl der Datensätze von Spark Streaming verarbeitet werden" – maasg