2016-01-13 23 views
5

Quando sto usando plyr e dplyr per analizzare un grande set di dati che è raggruppato da un id, a volte ho un errore nella mia funzione. Posso usare browser() o debugger() per esplorare cosa sta succedendo, ma un problema è che non so se il problema è con il primo id, o il 100 °. Posso usare il debugger per farmi fermare l'errore, ma c'è un modo semplice per vedere quale id ha causato il problema oltre a includere l'id come input di una funzione per il solo scopo del debug? Illustro con l'esempio qui sotto.Debug in plyr o dplyr - vedere quale gruppo

meanerr = function(y) { 
    m = mean(y) 
    stopifnot(!is.na(m)) 
    return(m) 
} 

d = data.frame(id=c(1,1,1,1,2,2),y=c(1,2,3,4,5,NA)) 
dsumm = ddply(d,"id",summarise,mean=meanerr(y)) 

Naturalmente questo fa sì che l'errore sotto e quando mi tuffo nella discarica, devo solo indizio dove cercare (vedi sotto)

> options(error=dump.frames) 
> source('~/svn/pgm/test_debug_ddply.R') 
Error: !is.na(m) is not TRUE 
> debugger() 
Message: Error: !is.na(m) is not TRUE 
Available environments had calls: 
1: source("~/svn/pgm/test_debug_ddply.R") 
2: withVisible(eval(ei, envir)) 
3: eval(ei, envir) 
4: eval(expr, envir, enclos) 
5: test_debug_ddply.R#9: ddply(d, "id", summarise, mean = meanerr(y)) 
6: ldply(.data = pieces, .fun = .fun, ..., .progress = .progress, .inform = .inform, .parallel = . 
7: llply(.data = .data, .fun = .fun, ..., .progress = .progress, .inform = .inform, .parallel = .p 
8: loop_apply(n, do.ply) 
9: (function (i) 
{ 
    piece <- pieces[[i]] 
    if (.inform) { 
     res <- try(.fun(piece, ...)) 

10: .fun(piece, ...) 
11: eval(cols[[col]], .data, parent.frame()) 
12: eval(expr, envir, enclos) 
13: meanerr(y) 
14: test_debug_ddply.R#3: stopifnot(!is.na(m)) 
15: stop(sprintf(ngettext(length(r), "%s is not TRUE", "%s are not all TRUE"), ch), call. = FALSE, 

In ogni caso, forse solo tra cui l'id come input ogni volta per un debug facile è solo la strada da percorrere, ma mi chiedevo se c'era qualcosa di più elegante che i professionisti usano senza richiedere il passaggio di variabili extra.

Andy

risposta

4

mi imbatto in questo tutto il tempo con problemi group_by() ho avuto di dplyr usando la mia solita options(error=recover).

ho trovato che avvolgendo la funzione incriminata in una tryCatch() fa il trucco:

> dsumm = ddply(d,"id",summarise,mean=tryCatch(meanerr(y),error=function(e){"error"})) 
> dsumm 
    id mean 
1 1 2.5 
2 2 error