2016-05-22 14 views
21

Nell'apprendimento rinforzato, qual è la differenza tra iterazione della politica e iterazione valore?Qual è la differenza tra iterazione del valore e iterazione della politica?

Per quanto ho capito, nell'iterazione del valore, si utilizza l'equazione di Bellman per risolvere la politica ottimale, mentre, nell'iterazione della politica, si seleziona a caso una politica π e si trova la ricompensa di tale politica.

Il mio dubbio è che se si seleziona una politica casuale π in PI, come è garantita la politica ottimale. Anche se stiamo scegliendo diverse politiche casuali.

+2

Sarebbe stato più appropriato porre questa domanda su siti Web come https://ai.stackexchange.com/, https://stats.stackexchange.com o https://datascience.stackexchange.com. – nbro

risposta

25

In politiche iterazione algoritmi, si inizia con una politica casuale, quindi trovare la funzione valore di tale (fase di valutazione della politica) la politica, quindi trovare un nuovo (migliorata) politica basata sulla funzione valore precedente, e così via . In questo processo, ogni politica è garantita come un severo miglioramento rispetto alla precedente (a meno che non sia già ottimale). Dato un criterio, la sua funzione valore può essere ottenuta utilizzando l'operatore Bellman.

In valore iterazione, si inizia con una funzione di valore casuale e quindi trovare un nuovo (migliorata) funzione valore in un processo iterativo, fino a raggiungere il valore ottimale funzione. Si noti che è possibile derivare facilmente la politica ottimale dalla funzione del valore ottimale. Questo processo si basa sull'ottimizzazione dell'operatore Bellman .

In un certo senso, entrambi gli algoritmi condividono lo stesso principio di funzionamento e possono essere visti come due casi dello generalized policy iteration. Tuttavia, l'ottimalità dell'operatore Bellman contiene un operatore max, che non è lineare e, pertanto, ha caratteristiche diverse. Inoltre, è possibile utilizzare metodi ibridi tra l'iterazione del valore puro e l'iterazione della politica pura.

+1

Bella descrizione su questo. Bene, lascia che aggiunga questa cosa nella iterazione della politica che usa l'equazione aspettativa belman e nell'iterazione del valore usa l'equazione massima melman. Per l'iterazione del valore può essere meno iterazioni, ma per un'iterazione può esserci molto lavoro. Per l'iterazione della politica più iterazioni –

25

Guardiamole fianco a fianco. Le parti chiave per il confronto sono evidenziate. Le cifre sono tratte dal libro di Sutton and Barto: Apprendimento rinforzato: Introduzione.

enter image description here Punti chiave:

  1. Privacy iterazione include: valutazione delle politiche + politica di miglioramento, e le due sono ripetute in modo iterativo fino converge politiche.
  2. Valore iterazione include: trovando funzione ottimale valore + uno estrazione politica. Non vi è alcuna ripetizione dei due perché una volta che la funzione value è ottimale, anche la policy al di fuori dovrebbe essere ottimale (cioè convergente).
  3. Trovare la funzione di valore ottimale può anche essere vista come una combinazione di miglioramento delle politiche (a causa di max) e valutazione troncata delle politiche (la riassegnazione di v_ (s) dopo una sola scansione di tutti gli stati indipendentemente dalla convergenza).
  4. Gli algoritmi per la valutazione politica e trovando funzione valore ottimale sono molto simili eccetto per un'operazione max (come evidenziato)
  5. Analogamente, la fase chiave del miglioramento politica e estrazione politica sono identici eccetto il primo comporta un controllo di stabilità.

Nella mia esperienza, la politica iterazione è più veloce di valore di iterazione, come una politica converge più rapidamente di una funzione di valore. Ricordo che questo è anche descritto nel libro.

Immagino che la confusione provenisse principalmente da tutti questi termini un po 'simili, che mi hanno anche confuso prima.

+0

Sono d'accordo che l'iterazione della politica converge in un minor numero di iterazioni e ho anche letto in più punti che è più veloce. Ho fatto un po 'di semplice box-world e labirinto per risolvere esperimenti con entrambi i metodi in Burlap. Ho trovato che l'iterazione del valore ha eseguito più iterazioni ma ha impiegato meno tempo per raggiungere la convergenza. YMMV. – Ryan