Sto provando ad implementare la rete neurale con RELU.Backpropagation della rete neurale con RELU
livello di input -> 1 strato nascosto -> Relu -> strato di output -> strato softmax
Sopra è l'architettura della mia rete neurale. Sono confuso riguardo la backpropagation di questo relu. Per derivata di RELU, se x < = 0, l'uscita è 0. se x> 0, l'uscita è 1. Quindi quando si calcola il gradiente, significa che ho il gradiente di decente se x < = 0?
Qualcuno può spiegare "passo dopo passo" la backpropagation della mia architettura di rete neurale?
Sei sicuro che sia corretto? Ho un codice backprop funzionante e ho cambiato la funzione di attivazione (nel codice di forward prop) e il gradiente (nel codice backprop) e quindi il programma non riesce a convergere per un semplice test XOR. –
@Yan King Yin Sì. Ciò potrebbe accadere a causa di pesi morti. Inoltre, non dovrebbe essere necessario modificare nulla sul gradiente. – runDOSrun
Grazie, dopo aver corretto alcuni bug, penso che tu abbia ragione. Per alcuni pesi iniziali casuali, l'intera rete potrebbe essere morta però. –