C'è un modello per gestire la maggior parte dei problemi MDP, ma penso che probabilmente hai omesso alcune informazioni dalla descrizione del problema, molto probabilmente ha a che fare con lo stato che stai cercando di raggiungere, o il modo in cui un l'episodio termina (cosa succede se corri dal bordo della griglia). Ho fatto del mio meglio per rispondere alle tue domande, ma ho aggiunto un manuale sul processo che utilizzo per affrontare questi tipi di problemi.
In primo luogo l'utilità è una misura abbastanza astratta di quanto si desidera essere in un determinato stato. È sicuramente possibile avere due stati con uguale utilità, anche quando si misura l'utilità con una semplice euristica (distanza Euclidea o Manhattan). In questo caso, suppongo che il valore dell'utilità e il premio siano intercambiabili.
A lungo termine, l'obiettivo in questi tipi di problemi tende ad essere, come massimizzare il rendimento atteso (a lungo termine)? Il tasso di apprendimento, gamma, controlla la quantità di enfasi che si pone sullo stato corrente rispetto a dove si vorrebbe finire - in effetti si può pensare alla gamma come uno spettro che va da, 'fare la cosa che mi giova di più in questo timestep ' all'estremo opposto ' esplora tutte le mie opzioni e torna al migliore '. Sutton e Barto in là prenotano su reinforcement learning hanno un bel explanations di come funziona.
Prima di iniziare, tornare indietro attraverso la questione e fare in modo che si può tranquillamente rispondere alle seguenti domande.
- Che cos'è uno stato? Quanti stati ci sono?
- Che cos'è un'azione? Quante azioni ci sono?
- Se si inizia in stato u e si applica un'azione a, qual è la probabilità di raggiungere un nuovo stato v?
Quindi le risposte alle domande?
- Uno stato è un vettore (x, y). La griglia è 5 per 5, quindi ci sono 25 stati.
- Sono possibili quattro azioni, {E, N, S, W}
- La probabilità di raggiungere con successo uno stato adiacente dopo aver applicato un'azione adeguata è 0,7, la probabilità di non muoversi (rimanendo nello stesso stato è 0,3). Supponendo che (0,0) sia la cella in alto a sinistra e (4,4) sia la cella in basso a destra, la seguente tabella mostra un piccolo sottoinsieme di tutte le possibili transizioni.
Start State Action Final State Probability
---------------------------------------------------
(0,0) E (0,0) 0.3
(0,0) E (1,0) 0.7
(0,0) E (2,0) 0
...
(0,0) E (0,1) 0
...
(0,0) E (4,4) 0
(0,0) N (0,0) 0.3
...
(4,4) W (3,4) 0.7
(4,4) W (4,4) 0.3
Come possiamo verificare che questo ha un senso per questo problema?
- Verificare che la tabella abbia un numero appropriato di voci. Su una griglia 5 per 5 ci sono 25 stati e 4 azioni, quindi la tabella dovrebbe avere 100 voci.
- Verificare che per una coppia di stato/azione di avvio, solo due voci abbiano una probabilità diversa da zero.
Modifica. rispondendo alla richiesta per le probabilità di transizione a lo stato di destinazione. Notazione seguente assume
- v è stato finale
- u è stato fonte
- a è l'azione, dove non è menzionato, è implicito che l'azione applicata non è rilevante.
P(v=(3,3) | u =(2,3), a=E) = 0.7
P(v=(3,3) | u =(4,3), a=W) = 0.7
P(v=(3,3) | u =(3,2), a=N) = 0.7
P(v=(3,3) | u =(3,4), a=S) = 0.7
P(v=(3,3) | u =(3,3)) = 0.3
Come definiresti la funzione di transizione sullo stato selezionato (in grassetto)? –
Ho modificato il mio post originale per includere una risposta a questa domanda –
Ciò che chiamate tasso di apprendimento/gamma mi è noto con il nome di fattore di sconto/lambda. – ziggystar