Quando sto usando plyr e dplyr per analizzare un grande set di dati che è raggruppato da un id, a volte ho un errore nella mia funzione. Posso usare browser() o debugger() per esplorare cosa sta succedendo, ma un problema è che non so se il problema è con il primo id, o il 100 °. Posso usare il debugger per farmi fermare l'errore, ma c'è un modo semplice per vedere quale id ha causato il problema oltre a includere l'id come input di una funzione per il solo scopo del debug? Illustro con l'esempio qui sotto.Debug in plyr o dplyr - vedere quale gruppo
meanerr = function(y) {
m = mean(y)
stopifnot(!is.na(m))
return(m)
}
d = data.frame(id=c(1,1,1,1,2,2),y=c(1,2,3,4,5,NA))
dsumm = ddply(d,"id",summarise,mean=meanerr(y))
Naturalmente questo fa sì che l'errore sotto e quando mi tuffo nella discarica, devo solo indizio dove cercare (vedi sotto)
> options(error=dump.frames)
> source('~/svn/pgm/test_debug_ddply.R')
Error: !is.na(m) is not TRUE
> debugger()
Message: Error: !is.na(m) is not TRUE
Available environments had calls:
1: source("~/svn/pgm/test_debug_ddply.R")
2: withVisible(eval(ei, envir))
3: eval(ei, envir)
4: eval(expr, envir, enclos)
5: test_debug_ddply.R#9: ddply(d, "id", summarise, mean = meanerr(y))
6: ldply(.data = pieces, .fun = .fun, ..., .progress = .progress, .inform = .inform, .parallel = .
7: llply(.data = .data, .fun = .fun, ..., .progress = .progress, .inform = .inform, .parallel = .p
8: loop_apply(n, do.ply)
9: (function (i)
{
piece <- pieces[[i]]
if (.inform) {
res <- try(.fun(piece, ...))
10: .fun(piece, ...)
11: eval(cols[[col]], .data, parent.frame())
12: eval(expr, envir, enclos)
13: meanerr(y)
14: test_debug_ddply.R#3: stopifnot(!is.na(m))
15: stop(sprintf(ngettext(length(r), "%s is not TRUE", "%s are not all TRUE"), ch), call. = FALSE,
In ogni caso, forse solo tra cui l'id come input ogni volta per un debug facile è solo la strada da percorrere, ma mi chiedevo se c'era qualcosa di più elegante che i professionisti usano senza richiedere il passaggio di variabili extra.
Andy