risposta

2

Supponiamo di avere una funzione multivariata F(W) con K numero di variabili/parametri w (w_1, w_2, w_3, ..., w_k). I parametri sono le manopole e l'obiettivo è quello di cambiare queste manopole in modo che F sia minimizzata la funzione F. La discesa coordinata è un metodo avido nel senso che su ogni iterazione si modificano i valori dei parametri w_i per ridurre al minimo lo F. È molto semplice da implementare e come lo gradient descent è garantito minimizzare F in ogni iterazione e raggiungere un minimo locale.

enter image description here

Picture preso in prestito da Internet attraverso una ricerca Bing immagine

Come mostrato nella foto sopra, la funzione F ha due parametri x e y. Ad ogni iterazione, entrambi i parametri vengono modificati da un valore fisso c e il valore della funzione viene valutato nel nuovo punto. Se il valore è più alto e l'obiettivo è di minimizzare la funzione, la modifica viene invertita per il parametro selezionato. Quindi viene eseguita la stessa procedura per il secondo parametro. Questa è un'iterazione dell'algoritmo.

Un vantaggio dell'utilizzo della discesa delle coordinate è nei problemi in cui il calcolo del gradiente della funzione è costoso.

Fonti

+0

Grazie. Ho sentito che laddove il gradiente di calcolo è costoso, il subgradiente viene calcolato per ottenere una soluzione, ad es. Funzione di valore assoluto. Mi chiedo se riesco a ottenere una spiegazione intuitiva dei sub-studenti del computer? – shan

+0

@shan Per quanto ne so, il subgradiente informatico calcola la derivata di una funzione in un dato punto. Dai un'occhiata a [questo link] (https://en.wikipedia.org/wiki/Subderivative) per ulteriori informazioni sul sub-dipendente. Anche se ha senso, ma personalmente non so quale sia la relazione esatta tra i metodi di discesa coordinata e subgradiente. Quello che posso dirti è che se una funzione è convessa, il subgradiente è il gradiente stesso. – Amir

+2

"se una funzione è convessa, subgradient è il gradiente stesso" - che non è corretto. Ad esempio, la funzione f (x) = | x | è convesso, ma a x = 0 ogni punto nell'intervallo [-1,1] è un sub-dipendente. Dovrebbe essere: se la funzione è differenziabile a x0 ==> l'unico sotto-gradiente è il gradiente. –