q-learning

6calore

3risposta

Incremento illimitato del Q-Value, conseguenza della ricompensa ricorrente dopo la ripetizione della stessa azione in Q-Learning

Sono in fase di sviluppo di una semplice implementazione Q-Learning su un'applicazione banale, ma c'è qualcosa che mi tiene perplesso . Consideriamo la formulazione standard di Q-Learning Q(S, A) = Q(

19calore

2risposta

Perché il mio Deep Q Network non è in grado di padroneggiare un semplice Gridworld (Tensorflow)? (Come valutare una Deep-Q-Net)

Provo a familiarizzare con Q-learning e Deep Neural Networks, attualmente provo ad implementare Playing Atari with Deep Reinforcement Learning. Per testare la mia implementazione e giocarci, ho provat

13calore

1risposta

Come utilizzare Tensorflow Optimizer senza ricalcolare le attivazioni nel programma di apprendimento di rinforzo che restituisce il controllo dopo ogni iterazione?

EDIT (1/3/16): corresponding github issue Sto utilizzando tensorflow (interfaccia Python) per implementare un agente q-apprendimento con funzione di approssimazione addestrata con gradiente stocastico

9calore

2risposta

Q Algoritmo di apprendimento per Tic Tac Toe

Non riuscivo a capire come aggiornare i valori di Q per il gioco tic tac toe. Ho letto tutto su questo, ma non riuscivo a immaginare come farlo. Ho letto che il valore Q è aggiornato alla fine del gio

13calore

2risposta

Epsilon ottimale valore (ε-greedy)

politica ε-avido so che l'algoritmo Q-learning dovrebbe cercare di bilanciare tra esplorazione e sfruttamento. Dato che sono un principiante in questo campo, ho voluto implementare una versione sempli

7calore

1risposta

Domande su Q-Learning usando Reti Neurali

ho implementato Q-Learning come descritto in, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Per circa. Q (S, A) io uso una struttura di rete neurale come il seguente, attivaz

11calore

1risposta

Apprendimento di rinforzo profondo e apprendimento di rinforzo

Qual è la differenza tra profondità apprendimento di rinforzo e apprendimento di rinforzo? Fondamentalmente so cos'è l'apprendimento di rinforzo, ma cosa significa in concreto il termine profondo? Gra