Sto valutando un numero di algoritmi diversi il cui compito è di prevedere la probabilità di un evento che si verifica.Determinare se la differenza tra due valori di errore è significativa
Sto testando gli algoritmi su set di dati di grandi dimensioni. Misuro la loro efficacia usando "Root Mean Squared Error", che è la radice quadrata della ((somma degli errori) al quadrato). L'errore è la differenza tra la probabilità prevista (un valore in virgola mobile compreso tra 0 e 1) e il risultato effettivo (0,0 o 1,0).
Quindi conosco l'RMSE e anche il numero di campioni su cui è stato testato l'algoritmo.
Il problema è che a volte i valori RMSE sono abbastanza vicini l'uno all'altro, e ho bisogno di un modo per determinare se la differenza tra loro è solo casuale, o se rappresenta una differenza effettiva nelle prestazioni.
Idealmente, per una data coppia di valori RMSE, mi piacerebbe sapere qual è la probabilità che uno sia realmente migliore dell'altro, in modo da poter usare questa probabilità come soglia di significato.
Commentando il mio commento. "Il punteggio corretto" è un termine troppo forte. Questo punteggio è spesso appropriato, ma potrebbe essere necessario un punteggio di costo che tenga conto del guadagno ottenuto dalla corretta classificazione e della perdita da false classificazioni. È un argomento profondo.Non fare affidamento su un modello per decisioni importanti a meno che tu non sappia REALMENTE quello che stai facendo e tu VERAMENTE comprenderai come il tuo set di dati si riferisce alla distribuzione dei dati che stai valutando. Smontare la soapbox ora. –
Sono completamente bayesiano. Ma data la domanda, un t-test frequentista che usa errori fuori campione è certamente statisticamente difendibile e dovrebbe dare buone risposte. Non è chiaro che la soluzione bayesiana sia del tutto fattibile; l'intervistatore sta usando procedure di stima esistenti, non bayesiane e sembra preoccuparsi che MSE non sia un criterio di adattamento del modello. – Tristan
@Tristan. Inteso. Ma MSE è ragionevole per le uscite di probabilità? C'è una T analogica per studenti per un errore logaritmico? –