Ich befolge die Tensorflow Object Detection API tutorial, um ein Faster R-CNN-Modell auf meinem eigenen Datensatz in Google Cloud zu trainieren. Aber der folgende Fehler "out-of-memory" ist weiterhin aufgetreten.Google Cloud ML Engine "out-of-memory" -Fehler, wenn die Speicherauslastung fast Null ist
The replica master 0 ran out-of-memory and exited with a non-zero status of 247.
Und nach den Protokollen, ein von Null verschiedenen Exit-Status wurde zurückgegeben. Wie in the official documentation beschrieben, könnte ein Code von bedeuten, dass das Training mehr Speicher als zugewiesen verwendet.
Die Speicherauslastung ist jedoch niedriger als 0,2. Warum habe ich das Speicherproblem? Wenn es hilft, the memory utilization graph is here.
Ich habe den Maschinentyp large_model nach dem gleichen Fehler verwendet, aber es ist nach der gleichen Anzahl von Trainingsschritten wie die STANDARD_1 Waage fehlgeschlagen. Weißt du, was könnte das Problem sein? – tzharg
@ rhaertel80, Löst eine steigende Anzahl von Arbeitern dieses Problem, oder müssen wir den größeren Modell-Maschinentyp verwenden, wie Sie gesagt haben? – LittleZero