Mein Team bei Moloco führt viele Dataflow-Pipelines durch (stündlich und täglich, meist Batch-Jobs). Von Zeit zu Zeit möchten wir die Gesamtkosten jeder Pipeline berechnen, um festzustellen, welche Verbesserungen wir vornehmen können Kosten. In den letzten Wochen geht einer unserer Techniker normalerweise zur Website für die Jobüberwachung (über https://console.cloud.google.com/dataflow?project= $ Projektname) und berechnet die Kosten manuell, indem er die Anzahl der Arbeiter, den Maschinentyp, die Gesamt-PD und den verwendeten Arbeitsspeicher nachschlägt usw.Kosten für jeden Pipeline-Job
Vor kurzem haben wir festgestellt, dass die Seite jetzt die "Ressourcenmetriken" zeigt, die uns helfen, unsere Zeit bei der Berechnung der Kosten zu sparen (zusammen mit dem neuen Preismodell, das vor einiger Zeit angekündigt wurde).
Da wir jeden Tag ungefähr 60-80 Datenflussjobs ausführen, ist es zeitaufwendig, die Kosten pro Job zu berechnen. Gibt es eine Möglichkeit, vollständige vCPU-, Speicher- und PD/SSD-Nutzungsmetriken über die API bei einer Job-ID zu erhalten, möglicherweise über '' PipelineResult '' oder über das Protokoll des Master-Knotens? Wenn es jetzt nicht unterstützt wird, planen Sie in naher Zukunft? Wir fragen uns, ob wir in Erwägung ziehen sollten, unser eigenes Skript oder etwas zu schreiben, das die Metriken pro Job-ID extrahiert und die Kosten berechnet, aber wir möchten, dass wir das nicht tun müssen.
Danke!
Dies ist genau das, was ich brauchte. Nach dem Upgrade auf den neuesten gcloud sdk (135.0.0) funktioniert alles perfekt! –
Wie berechnen Sie die Kosten anhand der oben genannten Messwerte? – ghostcoder