Sono in un corso chiamato "Intelligent Machines" nell'università. Ci sono state introdotte con 3 metodi di apprendimento rinforzato, e con coloro che hanno dato l'intuizione di quando usarli e cito:Q learning vs Differenza temporale vs Apprendimento rinforzato basato su modello
- Q-Learning - Meglio quando MDP non può essere risolto.
- Apprendimento differenza temporale - migliore quando MDP è noto o può essere appreso ma non può essere risolto.
- Basato su modello: il migliore quando MDP non può essere appresa.
Ho chiesto un esempio sul perché utilizzare TDL su QL e così via, e il docente non è riuscito a trovarne uno.
Quindi ci sono dei buoni esempi per scegliere un metodo rispetto all'altro? Grazie.
Q-learning è un algoritmo di differenza temporale. –
Non viene utilizzato Q-Learning per calcolare il valore Q, mentre l'apprendimento differenza temporale è utilizzato per calcolare la funzione Valore? [Sono imparentati, ma non esattamente lo stesso credo] O mi sbaglio? – StationaryTraveller
V è la funzione del valore di stato, Q è la funzione del valore di azione e Q-learning è un algoritmo di apprendimento della differenza temporale specifico off-policy. Puoi imparare Q o V usando diversi metodi TD o non TD, che potrebbero essere entrambi basati sul modello o meno. –