reinforcement-learning

7calore

1risposta

Domande su Q-Learning usando Reti Neurali

ho implementato Q-Learning come descritto in, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Per circa. Q (S, A) io uso una struttura di rete neurale come il seguente, attivaz

11calore

1risposta

Apprendimento di rinforzo profondo e apprendimento di rinforzo

Qual è la differenza tra profondità apprendimento di rinforzo e apprendimento di rinforzo? Fondamentalmente so cos'è l'apprendimento di rinforzo, ma cosa significa in concreto il termine profondo? Gra

11calore

1risposta

Qualche esempio di codice di algoritmo REINFORCE proposto da Williams?

Se uno sa qualsiasi codice di esempio di un algoritmo Ronald J. Williams proposto in A class of gradient-estimating algorithms for reinforcement learning in neural networks

6calore

1risposta

sknn - mancata corrispondenza delle dimensioni di input sul secondo adattamento

Stavo tentando di creare una rete neurale che utilizza l'apprendimento di rinforzo. Ho scelto scikit-neuralnetwork come libreria (perché è semplice). Sembra, però, che il montaggio due volte fa crolla

10calore

1risposta

Q learning vs Differenza temporale vs Apprendimento rinforzato basato su modello

Sono in un corso chiamato "Intelligent Machines" nell'università. Ci sono state introdotte con 3 metodi di apprendimento rinforzato, e con coloro che hanno dato l'intuizione di quando usarli e cito: Q

21calore

2risposta

Qual è la differenza tra iterazione del valore e iterazione della politica?

Nell'apprendimento rinforzato, qual è la differenza tra iterazione della politica e iterazione valore? Per quanto ho capito, nell'iterazione del valore, si utilizza l'equazione di Bellman per risolver

13calore

1risposta

Come utilizzare Tensorflow Optimizer senza ricalcolare le attivazioni nel programma di apprendimento di rinforzo che restituisce il controllo dopo ogni iterazione?

EDIT (1/3/16): corresponding github issue Sto utilizzando tensorflow (interfaccia Python) per implementare un agente q-apprendimento con funzione di approssimazione addestrata con gradiente stocastico

9calore

2risposta

Q Algoritmo di apprendimento per Tic Tac Toe

Non riuscivo a capire come aggiornare i valori di Q per il gioco tic tac toe. Ho letto tutto su questo, ma non riuscivo a immaginare come farlo. Ho letto che il valore Q è aggiornato alla fine del gio

13calore

2risposta

Epsilon ottimale valore (ε-greedy)

politica ε-avido so che l'algoritmo Q-learning dovrebbe cercare di bilanciare tra esplorazione e sfruttamento. Dato che sono un principiante in questo campo, ho voluto implementare una versione sempli

8calore

2risposta

Come accumulare e appy gradienti per l'aggiornamento DQNetwork Async n-step in Tensorflow?

Sto tentando di implementare Asynchronous Methods for Deep Reinforcement Learning e uno dei passaggi richiede di accumulare il gradiente su diversi passaggi e quindi applicarlo. Qual è il modo miglior