Ich führe eine Cloud-Instanz auf einem GPU-Knoten. Ich installierte CUDA und nvidia-smi zeigte die Treiberdetails, Speicherauslastung. Nach ein paar Tagen stelle ich diesen Fehler "NVIDIA-SMI ist fehlgeschlagen, weil es nicht mit dem NVIDIA-Treiber kommunizieren konnte. Stellen Sie sicher, dass der neueste NVIDIA-Treiber installiert ist und ausgeführt wird".NVIDIA-SMI ist fehlgeschlagen. Konnte nicht mit Nvidia-Treiber kommunizieren
Ich habe den neuesten Treiber installiert (Nvidia-375.39 für Tesla M40 Gpus). Ich habe immer noch das gleiche Problem. Gibt es einen Weg zu i) Debuggen, warum nvidia-smi nicht in der Lage ist, mit dem Treiber zu kommunizieren? ii) Überprüfen Sie, ob der Treiber ordnungsgemäß ausgeführt wird.
Vielen Dank im Voraus.