1

Ich befolge die Tensorflow Object Detection API tutorial, um ein Faster R-CNN-Modell auf meinem eigenen Datensatz in Google Cloud zu trainieren. Aber der folgende Fehler "out-of-memory" ist weiterhin aufgetreten.Google Cloud ML Engine "out-of-memory" -Fehler, wenn die Speicherauslastung fast Null ist

The replica master 0 ran out-of-memory and exited with a non-zero status of 247. 

Und nach den Protokollen, ein von Null verschiedenen Exit-Status wurde zurückgegeben. Wie in the official documentation beschrieben, könnte ein Code von bedeuten, dass das Training mehr Speicher als zugewiesen verwendet.

Die Speicherauslastung ist jedoch niedriger als 0,2. Warum habe ich das Speicherproblem? Wenn es hilft, the memory utilization graph is here.

Antwort

3

Das Speicherauslastungsdiagramm ist ein Durchschnitt über alle Arbeiter. Im Falle eines nicht ausreichenden Speicherfehlers ist es auch nicht garantiert, dass die endgültigen Datenpunkte erfolgreich exportiert werden (z. B. eine große plötzliche Speicherspitze). Wir machen Schritte, um die Speicherauslastungsgraphen nützlicher zu machen.

Wenn Sie den Master auch zur Auswertung verwenden (wie in den meisten Beispielen gezeigt), verwendet der Master ~ 2x den RAM relativ zu einem normalen Arbeiter. Sie könnten das large_model machine type verwenden.

+0

Ich habe den Maschinentyp large_model nach dem gleichen Fehler verwendet, aber es ist nach der gleichen Anzahl von Trainingsschritten wie die STANDARD_1 Waage fehlgeschlagen. Weißt du, was könnte das Problem sein? – tzharg

+0

@ rhaertel80, Löst eine steigende Anzahl von Arbeitern dieses Problem, oder müssen wir den größeren Modell-Maschinentyp verwenden, wie Sie gesagt haben? – LittleZero

0

Wenn Sie Ihren Fehler betrachten, scheint es, dass Ihr ML-Code mehr Speicher verbraucht, als er ursprünglich zugewiesen wurde.

Versuchen Sie mit einem Maschinentyp, der Ihnen mehr Speicher wie "large_model" oder "complex_model_l" ermöglicht. Verwenden Sie einen config.yaml es wie folgt zu definieren:

trainingInput: 
scaleTier: CUSTOM 
# 'large_model' for bigger model with lots of data 
masterType: large_model 
runtimeVersion: "1.4" 

Es gibt eine ähnliche Frage Google Cloud machine learning out of memory. Bitte beachten Sie diesen Link für die tatsächliche Lösung.

+0

Dies beantwortet nicht wirklich die Frage. Wenn Sie eine andere Frage haben, können Sie sie durch Klicken auf [Frage stellen] (https://stackoverflow.com/questions/ask) stellen. Sie können auch [Kopfgeld hinzufügen] (https://stackoverflow.com/help/privileges/set-bounties) hinzufügen, um mehr Aufmerksamkeit auf diese Frage zu lenken, sobald Sie genug [Reputation] haben (https://stackoverflow.com/help/ Whats-Reputation). - [Aus Bewertung] (/ review/low-quality-posts/18249256) –

0

Das running_pets-Lernprogramm verwendet die BASIC_GPU-Schicht, daher ist der Speicher der GPU möglicherweise nicht voll ausgelastet. Die Graphen auf der ML-Engine zeigen derzeit nur die Auslastung des CPU-Speichers an.

Wenn dies der Fall ist, wird das Problem durch Ändern Ihrer Stufe in größere GPUs gelöst. Here gibt einige Informationen über die verschiedenen Ebenen. Auf der gleichen Seite finden Sie ein Beispiel für eine YAML-Datei zur Konfiguration.

Verwandte Themen