Quale differenza nell'algoritmo fa avere un valore gamma grande o piccolo? Nella mia ottica, purché non sia né 0 né 1, dovrebbe funzionare esattamente allo stesso modo. Dall'altra parte, qualunque sia la gamma che scelgo, sembra che i Qvalues diventino molto vicini allo zero molto rapidamente (ho qui valori dell'ordine di 10^-300 solo in un test rapido). Come fanno le persone a tracciare Qvalues (sto tracciando un (x, y, miglior QValue per quello stato) dato quel problema? Sto cercando di aggirare i logaritmi ma anche allora sembra un po 'imbarazzanteParametri alfa e gamma in QLearning
Inoltre, Non capisco quale sia la ragione alla base dell'have e del parametro alfa nella funzione di aggiornamento di Q Learning, in pratica imposta la grandezza dell'aggiornamento che andremo a fare con la funzione del valore Q. Ho l'impressione che di solito diminuisca Il valore dell'aggiornamento all'inizio dovrebbe avere più importanza di 1000 episodi dopo?
Inoltre, stavo pensando che fosse una buona idea esplorare lo spazio di stato ogni volta che l'agente non vuole fare l'azione golosa sarebbe esplorare qualsiasi stato che abbia ancora uno zer o QValue (questo significa, almeno la maggior parte delle volte, uno stato mai fatto prima), ma non vedo quello riferito in nessuna letteratura. Ci sono degli aspetti negativi in questo? So che questo non può essere usato con (almeno alcune) funzioni di generalizzazione.
Un'altra idea sarebbe quella di mantenere una tabella di stati/azioni visitati e provare a eseguire le azioni che sono state provate meno volte prima in quello stato. Ovviamente questo può essere fatto solo in spazi di stato relativamente piccoli (nel mio caso è sicuramente possibile).
Una terza idea per il tardo processo di esplorazione sarebbe guardare non solo all'azione selezionata alla ricerca dei migliori qvalues ma anche guardare dentro tutte quelle azioni possibili e quello stato, e poi negli altri di quello stato e così .
So che quelle domande sono un po 'non correlate, ma mi piacerebbe sentire le opinioni di persone che hanno lavorato prima con questo e (probabilmente) hanno lottato con alcuni di loro.
Qual è stata la politica? Qual è il problema? Quali sono gli stati? Cosa motiva il lavoro? Che codice hai usato? Hai usato un problema di riferimento per mostrare che il tuo codice funziona? – EngrStudent