Come gestire i valori mancanti nei set di dati prima di applicare l'algoritmo di apprendimento automatico ??.Come gestire i NaN mancanti per l'apprendimento automatico in python
Ho notato che non è una cosa intelligente rilasciare i valori NAN mancanti. Di solito faccio interpolare (media calcolata) usando i panda e riempi i dati, il che è un po 'come funziona e migliora l'accuratezza della classificazione, ma potrebbe non essere la cosa migliore da fare.
Ecco una domanda molto importante. Qual è il modo migliore per gestire i valori mancanti nel set di dati?
Ad esempio, se si vede questo set di dati, solo il 30% ha dati originali.
Int64Index: 7049 entries, 0 to 7048
Data columns (total 31 columns):
left_eye_center_x 7039 non-null float64
left_eye_center_y 7039 non-null float64
right_eye_center_x 7036 non-null float64
right_eye_center_y 7036 non-null float64
left_eye_inner_corner_x 2271 non-null float64
left_eye_inner_corner_y 2271 non-null float64
left_eye_outer_corner_x 2267 non-null float64
left_eye_outer_corner_y 2267 non-null float64
right_eye_inner_corner_x 2268 non-null float64
right_eye_inner_corner_y 2268 non-null float64
right_eye_outer_corner_x 2268 non-null float64
right_eye_outer_corner_y 2268 non-null float64
left_eyebrow_inner_end_x 2270 non-null float64
left_eyebrow_inner_end_y 2270 non-null float64
left_eyebrow_outer_end_x 2225 non-null float64
left_eyebrow_outer_end_y 2225 non-null float64
right_eyebrow_inner_end_x 2270 non-null float64
right_eyebrow_inner_end_y 2270 non-null float64
right_eyebrow_outer_end_x 2236 non-null float64
right_eyebrow_outer_end_y 2236 non-null float64
nose_tip_x 7049 non-null float64
nose_tip_y 7049 non-null float64
mouth_left_corner_x 2269 non-null float64
mouth_left_corner_y 2269 non-null float64
mouth_right_corner_x 2270 non-null float64
mouth_right_corner_y 2270 non-null float64
mouth_center_top_lip_x 2275 non-null float64
mouth_center_top_lip_y 2275 non-null float64
mouth_center_bottom_lip_x 7016 non-null float64
mouth_center_bottom_lip_y 7016 non-null float64
Image 7049 non-null object
"* Qual è il modo migliore per gestire i valori mancanti nel set di dati? *" I sosterrebbe che la risposta a questa domanda è sia specifica della situazione, sia basata sull'opinione pubblica. – CoryKramer
È possibile rilasciare le righe con valori mancanti, ma ciò potrebbe ridurre le prestazioni o impostare i valori mancanti su un valore che non influisce sulla previsione, ma questo potrebbe ancora variare il modello se si dispone di molti valori mancanti, in realtà dipende . Puoi usare la media/mediana ma dovrai misurare le prestazioni di tutti gli approcci e vedere cosa è meglio, dipende dal fatto che ci sia un valore in quelle funzioni e quale modello tu selezioni – EdChum