Welche Methode verwendet der Value Iteration-Algorithmus, um den Wert einer Zustands-Aktions-Paar zu aktualisieren?
Bellman-Gleichung
TD(λ)-Lernen
Overlook minor misbehaviors
Impose harsh punishments for any infraction

Maschinelles Lernen Übungen werden geladen ...