Uso R per l'analisi dei dati e sono molto soddisfatto. La pulizia dei dati potrebbe essere un po 'più facile, comunque. Sto pensando di imparare un'altra lingua adatta a questo compito. Nello specifico, sto cercando uno strumento da utilizzare per prendere dati grezzi, rimuovere variabili o osservazioni non necessarie e formattarlo per un caricamento facile in R. I contenuti sarebbero principalmente dati numerici e di stringa, a differenza del testo su più righe.Python o awk/sed per la pulizia dei dati
Sto considerando la combinazione awk/sed contro Python. (Riconosco che Perl sarebbe un'altra opzione, ma, se dovessi imparare un altro linguaggio completo, Python sembra essere una scelta migliore, più estensibile.)
Il vantaggio di sed/awk è che sarebbe più veloce per imparare. Lo svantaggio è che questa combinazione non è così estensibile come Python. In effetti, potrei immaginare un po 'di "strisciamento della missione" se avessi imparato Python, il che andrebbe bene, ma non il mio obiettivo.
L'altra considerazione che ho avuto è l'applicazione a set di dati di grandi dimensioni. A quanto ho capito, awk/sed funziona line-by-line, mentre Python in genere recupera tutti i dati in memoria. Questo potrebbe essere un altro vantaggio per sed/awk.
Ci sono altri problemi che mi mancano? Qualunque consiglio che tu possa offrire sarebbe apprezzato. (Ho incluso il tag R per gli utenti R di offrire le loro raccomandazioni di pulizia.)
per "pulizia", intendi il clipping di valori anomali o il ripristino della coerenza o qualcos'altro? con "dati" intendi numeri o stringhe, o semplicemente testo? per me questo obiettivo della domanda attuale è troppo generico. – nye17
@ nye17, scusa per l'ambiguità. Ho aggiunto un po 'più di dettagli. – Charlie
Io uso principalmente python per me stesso, ma se si trattasse esclusivamente di manipolazione di set di dati basati su testo, servendo come interfaccia dati per R, suggerirei fortemente perl, data la sua potente espressione regolare e flessibilità nell'affrontare il testo. – nye17