Ich möchte, dass mein RL-Agent das Ziel so schnell wie möglich erreicht und gleichzeitig die Häufigkeit der Verwendung einer bestimmten Ressource T minimiert (was manchmal notwendig ist).Wie sollte man die unmittelbare Belohnung in einem RL-Programm einrichten?
Ich dachte über die Einrichtung der unmittelbaren Belohnungen als -1 pro Schritt, eine zusätzliche -1 wenn der Agent T und 0 verwendet, wenn es das Ziel erreicht.
Aber die zusätzliche -1 ist völlig willkürlich, wie kann ich entscheiden, wie viel Strafe sollte der Agent für die Verwendung von T bekommen?