Ho preparato i miei dati e, in qualche modo, ho ridotto di molto i dati dopo la fusione dei miei set di dati.unione dei dati e ricezione di una grossa perdita di dati
Dal momento che non ho la longitudine e la latitudine in miei dati Sto usando il seguente codice dopo ho scaricato il pacchetto codice postale (tel1
è miei dati contenenti zipcodes)
merge <- merge(zipcode,tel1,by.x=c('zip'),by.y=c('zip_code'))
prima di fondersi Ho avuto 195956 osservazioni, mentre dopo la fusione è sceso al 180090, ma non capisco perché.
A mio parere ho appena fusa dove zip
è stato pari a zip_code
e ho aggiunto le informazioni dal codice postale set di dati al mio Tel1 cartella
In seguito ho voluto rimuovere le righe che contengono NA perché l'unione non poteva definire qualsiasi numero o qualsiasi altra cosa. Ho usato questo codice
final <- result[complete.cases(result),]
Quindi il mio numero di osservazioni è sceso a 51006 che non riesco a credere. Non ci possono essere così tanti disallineamenti nei miei dati.
C'è qualche altro codice che dovrei usare?
In seguito ho cercato di eliminare i duplicati con il codice
last <- with(final,final[order(state,latitude,longitude),])
ma il numero di osservazioni è stato coerente (51006).
Cosa ho fatto di sbagliato o c'è un modo per riavere i miei dati in un file excel dopo aver unito i dati in modo da poter verificare manualmente se ci sono davvero così tanti disallineamenti? Grazie
Prova a utilizzare 'join' dal pacchetto plyr, è molto più intuitivo dell'unione. –
puoi anche guardare l'argomento 'all' per' unire '. 'unione (zipcode, tel1, by.x = 'zip', by.y = 'zip_code', all.y = TRUE)' – Justin
grazie a @Justin questo ha funzionato senza alcuna perdita ma se proseguo con il finale <- risultato [complete.cases (result),] per rimuovere il NA fino a quando scende a 51006 qualsiasi soluzione per quello? – user1741021