Nel pacchetto R rPAR, cosa determina la dimensione degli alberi presentati all'interno della tabella CP per un albero decisionale? Nell'esempio seguente, la tabella CP assume come predefiniti solo gli alberi con 1, 2 e 5 nodi (come nsplit = 0, 1 e 4 rispettivamente).Dimensioni albero fornite dalla tabella CP in rpart
library(rpart)
fit <- rpart(Kyphosis ~ Age + Number + Start, method="class", data=kyphosis)
> printcp(fit)
Classification tree:
rpart(formula = Kyphosis ~ Age + Number + Start, data = kyphosis,
method = "class")
Variables actually used in tree construction:
[1] Age Start
Root node error: 17/81 = 0.20988
n= 81
CP nsplit rel error xerror xstd
1 0.176471 0 1.00000 1.00000 0.21559
2 0.019608 1 0.82353 0.94118 0.21078
3 0.010000 4 0.76471 0.94118 0.21078
Esiste una regola intrinseca rpart()
utilizzato per determinare le dimensioni di alberi ad oggi? Ed è possibile forzare printcp()
per restituire le statistiche di convalida incrociata per tutte le possibili dimensioni dell'albero, ad esempio per l'esempio precedente, anche le righe per alberi con 3 e 4 nodi (nsplit = 2, 3)?
Grazie per la risposta, ma ho avuto l'impressione che '' minsplit' e cp' sono i parametri utilizzati nella coltivazione l'albero prima convalida incrociata è tentato - invece di potatura subito dopo, che è ciò che il mio domanda e la tabella CP si riferiscono a. Se ho frainteso potrei sapere perché l'output sopra presenta solo nsplit = 0, 1, 4 e quali valori appropriati di 'minsplit' e' cp' potrebbero essere nsplit = 0, 1, 2, 3, 4? Per inciso, 'summary (fit)' non mi ha dato statistiche di convalida incrociata per tutti i valori di nsplit - la tabella CP mostrata è la stessa della domanda. – alopex