2013-07-18 4 views
6
messaggio

errore:glmulti candidato oversize impostato

SISTEMA: Win7/64bit/Ultimate/16gb-real-RAM più memoria virtuale, memory.limit (32000)

  1. Cosa fa questo messaggio di errore significa?

    In glmulti (y = "y", data = mydf, xr = c ("x1",:! Insieme candidato surdimensionato

    mydf trovi 3.6mm righe e 150 colonne di carri

  2. quali passi. prendere per aggirare in glmulti?
  3. alternative alla glmulti nel mondo R?

R/64bit "Good Sport"

+0

Qualche aggiornamento in questo? – papirrin

risposta

5

ho incontrato lo stesso problema, qui è quello che ho scoperto così lontano:

  1. Il numero di righe non sembra essere il problema. Il problema è che con 150 predittori il pacchetto non può gestire una ricerca esaustiva (cioè dare un'occhiata e confrontare tutti i possibili modelli). Dalla mia esperienza il tuo messaggio di errore specifico "Set di candidati sovradimensionato", è attivato dal fatto che tu autorizzi anche le interazioni a coppie (level=2, imposta level=1 per proibire le interazioni). Quindi molto probabilmente incontrerai un messaggio di avviso "Troppi predittori". Nella mia (molto limitata) sperimentazione, ho scoperto che la quantità massima di modelli che ho inserito nel set candidato era di circa un miliardo di modelli (in particolare: 30 covariate pari a 1.073.741.824 basate sul 2^n per calcolare le combinazioni possibili (n = 30).). Ecco il codice che ho usato per valutare questa

    out <integer(50) for(i in 2:40) out[i]<-glmulti(names(data)[1], names(data)[2:i], method="d", level=1, crit=aic, data=data)

    una volta che il ciclo colpisce 31 covariate il set candidati restituisce con 0 modelli. 33 e successivi inizia a restituire il messaggio di avviso. I miei "dati" avevano circa 100 variabili e solo circa 1000 righe, ma come ho detto il problema è la larghezza del set di dati non la profondità.

  2. Come ho detto, iniziare eliminando le interazioni, quindi considerare l'utilizzo di altre tecniche di riduzione variabile prima di ottenere il numero variabile in basso (analisi fattoriale/componenti principali o clustering). Il problema con queste persone perderà alcune spiegabilità, ma manterrà il potere predittivo.

  3. Il glmuttil documentation confronta il pacchetto con le alternative, evidenziandone i casi d'uso, i vantaggi e gli svantaggi.

PS: ho incontrato la mia roba su Win7, 64 bit, 16 GB di RAM, la versione R: 3.10 glmutil 1.07. PPS: L'autore del pacchetto ha dichiarato di rilasciare la versione 2.0 l'anno scorso che avrebbe risolto alcuni di questi problemi. Maggiori informazioni allo source