10

Sono in un corso chiamato "Intelligent Machines" nell'università. Ci sono state introdotte con 3 metodi di apprendimento rinforzato, e con coloro che hanno dato l'intuizione di quando usarli e cito:Q learning vs Differenza temporale vs Apprendimento rinforzato basato su modello

  1. Q-Learning - Meglio quando MDP non può essere risolto.
  2. Apprendimento differenza temporale - migliore quando MDP è noto o può essere appreso ma non può essere risolto.
  3. Basato su modello: il migliore quando MDP non può essere appresa.

Ho chiesto un esempio sul perché utilizzare TDL su QL e così via, e il docente non è riuscito a trovarne uno.

Quindi ci sono dei buoni esempi per scegliere un metodo rispetto all'altro? Grazie.

+2

Q-learning è un algoritmo di differenza temporale. –

+0

Non viene utilizzato Q-Learning per calcolare il valore Q, mentre l'apprendimento differenza temporale è utilizzato per calcolare la funzione Valore? [Sono imparentati, ma non esattamente lo stesso credo] O mi sbaglio? – StationaryTraveller

+3

V è la funzione del valore di stato, Q è la funzione del valore di azione e Q-learning è un algoritmo di apprendimento della differenza temporale specifico off-policy. Puoi imparare Q o V usando diversi metodi TD o non TD, che potrebbero essere entrambi basati sul modello o meno. –

risposta

19

Differenza temporale è an approach to learning how to predict a quantity that depends on future values of a given signal. Può essere utilizzato per apprendere sia la funzione V che la funzione Q, mentre Q-learning è un algoritmo TD specifico utilizzato per imparare la funzione Q. Come indicato da @StationaryTraveller, è necessario che la funzione Q esegua un'azione (ad esempio, seguendo una politica di epsilon-greedy). Se hai solo la funzione V, puoi ancora derivare la funzione Q ripetendo tutti gli stati successivi possibili e scegliendo l'azione che ti porta allo stato con il valore V più alto. Per esempi e ulteriori approfondimenti raccomando lo classic book from Sutton and Barto (this è una versione più recente -in progresso-).

In RL non si impara la funzione di transizione di stato (il modello) e si basano solo su campioni privi di modello. Tuttavia, potresti essere interessato anche ad apprenderlo, ad esempio perché non puoi raccogliere molti campioni e vuoi generarne alcuni virtuali. In questo caso parliamo di basato su modello RL. La RL basata su modello è abbastanza comune in robotica, dove non è possibile eseguire molte simulazioni reali o il robot si romperà. This è un buon sondaggio con molti esempi (ma parla solo di algoritmi di ricerca delle politiche). Per un altro esempio dare un'occhiata a this paper. Qui gli autori imparano - insieme a una politica - un processo gaussiano per approssimare il modello in avanti del robot, al fine di simulare traiettorie e ridurre il numero di reali interazioni robot.