Mi è stato assegnato lo sviluppo di un modello di regressione che esamina l'iscrizione degli studenti in diversi programmi. Questo è un set di dati molto bello e pulito in cui i conteggi delle iscrizioni seguono un pozzo di distribuzione di Poisson. Ho adattato un modello in R (usando sia GLM sia Poisson gonfiato a zero). I residui risultanti sembravano ragionevoli.Regressione per una variabile di frequenza in R
Tuttavia, mi è stato chiesto di cambiare il conteggio degli studenti a un "tasso" che è stato calcolato come studenti/school_population (ogni scuola ha una propria popolazione.)) Ora non è più una variabile di conteggio, ma una percentuale tra 0 e 1. Questa è considerata la "percentuale di iscrizione" in un programma.
Questo "tasso" (studenti/popolazione) non è più Poisson, ma certamente non è nemmeno normale. Quindi, sono un po 'perso per la distribuzione appropriata e il modello successivo per rappresentarlo.
Una distribuzione normale del log sembra adattarsi bene a questo parametro di velocità, tuttavia ho molti valori 0, quindi non si adatta effettivamente.
Qualche suggerimento sulla migliore forma di distribuzione per questo nuovo parametro e su come modellarlo in R?
Grazie!
Penso che sia un caso utilizzare la variabile esposizione/offset (http://en.wikipedia.org/wiki/Poisson_regression#.22Exposure.22_and_offset). E, forse, una domanda a http://stats.stackexchange.com/ – Rcoster
cross-posted to r-help: http://thread.gmane.org/gmane.comp.lang.r.general/291112 –