Conosco le basi delle reti neurali feedforward e come addestrarle utilizzando l'algoritmo di backpropagation, ma sto cercando un algoritmo di quello che posso usare per addestrare un ANN online con l'apprendimento di rinforzo.Formazione di una rete neurale con apprendimento di rinforzo
Ad esempio, il problema cart pole swing up è uno che vorrei risolvere con una ANN. In quel caso, non so cosa si debba fare per controllare il pendolo, so solo quanto sono vicino alla posizione ideale. Ho bisogno di avere l'ANN imparata sulla base della ricompensa e della punizione. Pertanto, l'apprendimento supervisionato non è un'opzione.
Un'altra situazione è qualcosa come il snake game, in cui il feedback è in ritardo e limitato a obiettivi e anti-obiettivi, piuttosto che ricompensa.
Posso pensare ad alcuni algoritmi per la prima situazione, come l'alpinismo o gli algoritmi genetici, ma immagino che sarebbero entrambi lenti. Potrebbero anche essere applicabili nel secondo scenario, ma incredibilmente lenti e non favorevoli all'apprendimento online.
La mia domanda è semplice: Esiste un semplice algoritmo per addestrare una rete neurale artificiale con l'apprendimento di rinforzo? Principalmente mi interessano le situazioni di ricompensa in tempo reale, ma se è disponibile un algoritmo per situazioni basate sull'obiettivo, ancora meglio.
Buona domanda, e sto pensando quasi esattamente la stessa cosa, dove nel mio caso la rete neurale è ricorrente. Un punto chiave è che stai parlando di 2 diversi algoritmi di apprendimento. Non è possibile applicare 2 diversi algoritmi di apprendimento allo stesso problema senza causare conflitti, a meno che non si disponga di un modo per risolverli. –