2015-12-23 12 views
6

sto cercando di applicare il pacchetto dplyr e calcolare il numero di voci per ogni numero di carta in un insieme di dati con la seguente funzione:R-errore: data_frames possono contenere solo vettori atomiche 1d e liste

freq<- function(data){ 
    data <- complete.dupremoved[order(-complete.dupremoved$SUMMA),] 
    aggregate(count ~., data=transform(complete.dupremoved,count=1), length) 
    complete.dupremoved$count <-complete.dupremoved[complete.dupremoved$KLIENDIKAARDINR,] 
    sample <- count(complete.dupremoved, vars = "KLIENDIKAARDINR") 
    complete.dupremoved<- merge(complete.dupremoved,sample, by ="KLIENDIKAARDINR") 
    return(complete.dupremoved) 
} 

Il l'errore mostrato è Errore: data_frames può contenere solo vettori ed elenchi atomici 1d.

Quando faccio il: lapply (complete.dupremoved, classe)

Alcune colonne sono numerici, fattori, carattere, intero. Qualche soluzione su come risolvere questo? Anche il debugger pronunciato la seguente:

function (x) 
{ 
    stopifnot(is.list(x)) 
    if (length(x) == 0) { 
     x <- list() 
     class(x) <- c("tbl_df", "tbl", "data.frame") 
     attr(x, "row.names") <- .set_row_names(0) 
     return(x) 
    } 
    names_x <- names2(x) 
    if (any(is.na(names_x) | names_x == "")) { 
     stop("All columns must be named", call. = FALSE) 
    } 
    ok <- vapply(x, is_1d, logical(1)) 
    **if (any(!ok)) { 
     stop("data_frames can only contain 1d atomic vectors and lists", 
      call. = FALSE)** 
    } 
    n <- unique(vapply(x, NROW, integer(1))) 
    if (length(n) != 1) { 
     stop("Columns are not all same length", call. = FALSE) 
    } 
    class(x) <- c("tbl_df", "tbl", "data.frame") 
    attr(x, "row.names") <- .set_row_names(n) 
    x 
} 
+2

Puoi dare un piccolo esempio dei tuoi dati per riprodurre l'errore? I vettori "factor" –

+0

non sono atomici. –

+0

@ 42-, ma 'is.atomic (factor (" a ")) restituisce' TRUE' ..? –

risposta

6

La ragione di questo errore è che la funzione sta creando un dataframe come variabile all'interno dataframe originale. Questa è la linea che lo fa:

complete.dupremoved$count <-complete.dupremoved[complete.dupremoved$KLIENDIKAARDINR,] 

In futuro, è possibile controllare la dataframe con questo per identificare la classe di ogni variabile:

sapply(your_df_here, class) 

La domanda principale a parte, spero che tu fossi in grado di calcolare le voci per fattore. Ci sono diverse opzioni esistenti là fuori.