Sebbene entrambi i metodi sopra riportati forniscano un punteggio migliore per una migliore vicinanza della previsione, è preferibile ancora l'entropia incrociata. È in tutti i casi o ci sono alcuni scenari particolari in cui preferiamo l'entropia incrociata rispetto a MSE?Perché il metodo Cross Entropy è preferito rispetto a Mean Squared Error? In quali casi questo non regge?
risposta
Cross-entropia è preferito per la classificazione , mentre quadratico medio di errore è una delle migliori scelte per la regressione . Questo deriva direttamente dall'affermazione dei problemi stessi: nella classificazione si lavora con un insieme molto particolare di possibili valori di output, quindi MSE è mal definito (in quanto non possiede questo tipo di conoscenza e quindi penalizza gli errori in modo incompatibile). Per capire meglio i fenomeni che è bene seguire e comprendere i rapporti tra
- entropia croce
- regressione logistica (binario croce entropia)
- regressione lineare (MSE)
Si noterà che entrambi possono essere visti come stimatori di massima verosimiglianza, semplicemente con diverse assunzioni sulla variabile dipendente.
Potresti per favore approfondire "ipotesi sulla variabile dipendente"? – yuefengz
@Fake - come sottolineato da Duc nella risposta a parte, la regressione logistica assume la distribuzione binomiale (o multinomiale nel caso generalizzato di entropia e softmax incrociate) della variabile dipendente, mentre la regressione lineare assume che sia una funzione lineare delle variabili più una Rumore campionato IID da un rumore gaussiano 0 con varianza fissa. – lejlot
Quando si ricava la funzione di costo dall'aspetto di probabilità e distribuzione, è possibile osservare che MSE si verifica quando si assume che l'errore segua la distribuzione normale e l'entropia incrociata quando si assume la distribuzione binomiale. Significa che implicitamente quando usi MSE, stai facendo la regressione (stima) e quando usi CE, stai facendo una classificazione. Spero che aiuti un po '.
Se si esegue la regressione logistica ad esempio, si utilizzerà la funzione sigmoid e la discesa del gradiente per risolvere il problema. Fare questo e usare MSE per la funzione di costo porterà a un problema non convesso in cui si limiteranno i minimi locali. L'uso dell'entropia incrociata porterà a un problema convesso in cui troverai la soluzione ottimale.
https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35
C'è anche un'interessante analisi qui: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/
Vedi http://heliosphan.org/cross-entropy.html e http://heliosphan.org/generative-models.html – redcalx