Manchmal führen Fehler in meinen CUDA-Programmen dazu, dass die Desktop-Grafik (in Windows) beschädigt wird. Normalerweise bleibt der Bildschirm etwas lesbar, aber wenn sich Grafiken ändern, z. B. beim Ziehen eines Fensters, erscheinen viele halb zufällige farbige Pixel und kleine Blöcke.Zurücksetzen von GPU und Treiber nach CUDA-Fehler
Ich habe versucht, die GPU und den Treiber durch Ändern der Desktop-Auflösung zurücksetzen, aber das hilft nicht. Die einzige Lösung, die ich gefunden habe, besteht darin, den Computer neu zu starten.
Gibt es ein Programm da draußen oder einen Trick, den ich verwenden kann, um den Treiber und die GPU ohne Neustart neu zu setzen?
Hintergrund:
Ich habe 1,0 hatte, 1.1, 1.3 und 2.0-Karten, aber ich habe nur eine 1.1 und 2.0-Karte jetzt. Ich habe das Problem auf 1.0 und 1.1 gesehen. Ich bin mir ziemlich sicher, dass ich es auf 1.3 gesehen habe. Ich bin unsicher über 2.0. Wurde der Speicherschutz irgendwann um 1,3 erhöht? Ich bin mir fast sicher, dass es nicht an instabiler Hardware liegt, da die Probleme anscheinend durch Fehler in meinem Code ausgelöst wurden und verschwunden sind, als die Fehler behoben wurden. Wenn der fertige Code ausgeführt wurde, waren die Karten stabil. Ich habe diese Frage geschrieben, nachdem ich sie auf meiner 1.1-Karte gesehen habe, aber sie ist verschwunden, nachdem ich einen Fehler behoben habe und jetzt habe ich keinen Code, der sie reproduziert. Vielleicht sollte ich versuchen, zufällig gewählte Positionen auf der 1.1-Karte und sehen zu schreiben, wenn etwas passiert ...
Sie meinen, wenn Sie ein lang laufendes Cuda-Programm haben und der Fahrer abstürzt? – Tudor
@Tudor: Nein, ich denke nicht die Zeit, die es braucht, um die Kernel-Faktoren hineinzulaufen. Es hängt nicht mit dem Watchdog-Timer zusammen. –
Dies sollte wirklich nicht passieren, also sollten Sie Ihr Board auf Hardwareprobleme testen. Versuchen Sie zuerst, die Platine auszutauschen und dieselben fehlerverursachenden Programme auszuführen, um zu sehen, ob Sie sie reproduzieren können (idealerweise eine Instanz der gleichen Modellplatine und einer anderen Platine). Wenn es reproduziert, ist es wahrscheinlich kein Hardwareproblem. Sie könnten auch einen Speicher-Checker wie [this] (https://simtk.org/home/memtest/) ausprobieren (nicht sicher, ob es aktuell ist). – harrism