10

Sebbene entrambi i metodi sopra riportati forniscano un punteggio migliore per una migliore vicinanza della previsione, è preferibile ancora l'entropia incrociata. È in tutti i casi o ci sono alcuni scenari particolari in cui preferiamo l'entropia incrociata rispetto a MSE?Perché il metodo Cross Entropy è preferito rispetto a Mean Squared Error? In quali casi questo non regge?

+0

Vedi http://heliosphan.org/cross-entropy.html e http://heliosphan.org/generative-models.html – redcalx

risposta

17

Cross-entropia è preferito per la classificazione , mentre quadratico medio di errore è una delle migliori scelte per la regressione . Questo deriva direttamente dall'affermazione dei problemi stessi: nella classificazione si lavora con un insieme molto particolare di possibili valori di output, quindi MSE è mal definito (in quanto non possiede questo tipo di conoscenza e quindi penalizza gli errori in modo incompatibile). Per capire meglio i fenomeni che è bene seguire e comprendere i rapporti tra

  1. entropia croce
  2. regressione logistica (binario croce entropia)
  3. regressione lineare (MSE)

Si noterà che entrambi possono essere visti come stimatori di massima verosimiglianza, semplicemente con diverse assunzioni sulla variabile dipendente.

+1

Potresti per favore approfondire "ipotesi sulla variabile dipendente"? – yuefengz

+0

@Fake - come sottolineato da Duc nella risposta a parte, la regressione logistica assume la distribuzione binomiale (o multinomiale nel caso generalizzato di entropia e softmax incrociate) della variabile dipendente, mentre la regressione lineare assume che sia una funzione lineare delle variabili più una Rumore campionato IID da un rumore gaussiano 0 con varianza fissa. – lejlot

9

Quando si ricava la funzione di costo dall'aspetto di probabilità e distribuzione, è possibile osservare che MSE si verifica quando si assume che l'errore segua la distribuzione normale e l'entropia incrociata quando si assume la distribuzione binomiale. Significa che implicitamente quando usi MSE, stai facendo la regressione (stima) e quando usi CE, stai facendo una classificazione. Spero che aiuti un po '.

2

Se si esegue la regressione logistica ad esempio, si utilizzerà la funzione sigmoid e la discesa del gradiente per risolvere il problema. Fare questo e usare MSE per la funzione di costo porterà a un problema non convesso in cui si limiteranno i minimi locali. L'uso dell'entropia incrociata porterà a un problema convesso in cui troverai la soluzione ottimale.

https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35

C'è anche un'interessante analisi qui: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/