2014-07-14 9 views
49

Sono su data.table 1.9.3, e forse ho torto, ma non ricordo che il si sia verificato in precedenza.Unisciti a scope ereditato con in data.table

costruisco 2 data.tables, DTA e DTB

> dta 
    idx vala fdx 
1: 1 2 a 
2: 2 4 a 
3: 3 6 b 

> dtb 
    idx valb 
1: 1 3 
2: 4 6 

> dput(x = dta) 
structure(list(idx = c(1, 2, 3), vala = c(2, 4, 6), fdx = c("a", 
"a", "b")), .Names = c("idx", "vala", "fdx"), row.names = c(NA, 
-3L), class = c("data.table", "data.frame"), .internal.selfref = 
<pointer: 0x0000000000110788>, sorted = "idx") 

> dput(x = dtb) 
structure(list(idx = c(1, 4), valb = c(3, 6)), .Names = c("idx", 
"valb"), row.names = c(NA, -2L), class = c("data.table", "data.frame" 
), .internal.selfref = <pointer: 0x0000000000110788>, sorted = "idx") 

la chiave è IDX in entrambi i casi.

i seguenti lavori, naturalmente

> dta[dtb, sum(valb)] 
[1] 9 

Tuttavia questo non significa

> dta[dtb, sum(valb), by = fdx] 
Error in `[.data.table`(dta, dtb, sum(valb), by = fdx) : 
    object 'valb' not found 

Ma questo

> dta[dtb][, sum(valb), by = fdx] 
    fdx V1 
1: a 3 
2: NA 6 

Se vediamo il passaggio intermedio

> dta[dtb] 
    idx vala fdx valb 
1: 1 2 a 3 
2: 4 NA NA 6 

mi sarei aspettato

dta[dtb, sum(valb), by = fdx] == dta[dtb][, sum(valb), by = fdx] 

Dove ho sbagliato?

+6

Archiviato questo problema come [FR # 733] (https://github.com/Rdatatable/data.table/issues/733). Inoltre ha presentato una relazione [FR # 732] (https://github.com/Rdatatable/data.table/issues/732). Grazie. – Arun

+0

Posso riprodurre questo comportamento (= bug?) Anche in data.table 1.9.4, ci sono novità? –

risposta

1

Solo una supposizione

library(data.table) 

dta <- data.frame(idx=c(1,2,3), 
        vala=c(2,4,6), 
        fdx=c('a','a','b')) 
dta <- data.table(dta) 

dtb <- data.frame(idx=c(1,4), 
        valb=c(3,6)) 
dtb <- data.table(dtb) 

setkey(dta,idx) 
setkey(dtb,idx) 

Così, quando si chiama

dta[dtb, sum(valb)] 

E 'un po' come chiamare

tmp <- dta[dtb] 
attach(tmp) 
sum(valb) 
detach(tmp) 

Tuttavia, se si chiama

dta[dtb, sum(valb), by=fdx] 

allora un po 'come chiamare

tmp <- dta[dtb] 
# attach(tmp) : attach doesn't happen 
sum(valb) 
# detach(tmp) : detach doesn't happen 

La funzione non sa cosa fare con gli argomenti aggiuntivi. Per esempio, questo potrebbe anche lanciare un errore:

dta[dtb, class(fdx), sum(valb)] 

Tuttavia, questo funziona

dta[dtb][, sum(valb), by=fdx] 

che è un po 'come

tmp <- dta[dtb] 
tmp[, sum(valb), by=fdx] 

Come ho già detto, questa è solo una supposizione come a perché la funzione potrebbe non funzionare come previsto.