Gli algoritmi di regressione sembrano funzionare su caratteristiche rappresentate come numeri. Per esempio:Analisi di regressione lineare con stringhe/caratteristiche categoriali (variabili)?
Questo set di dati non contiene categoriche funzioni/variabili. È abbastanza chiaro come fare la regressione su questi dati e prevedere il prezzo.
Ma ora voglio fare analisi di regressione su dati che contengono funzioni categoriali:
Ci sono caratteristiche: District
, Condition
, Material
, Security
, Type
Come posso eseguire la regressione su questi dati? Devo trasformare tutti questi dati stringa/categoriali in numeri manualmente? Voglio dire se devo creare alcune regole di codifica e in base a quelle regole trasformare tutti i dati in valori numerici. C'è un modo semplice per trasformare i dati di stringa in numeri senza dover creare manualmente le proprie regole di codifica? Possono esserci alcune librerie in Python che possono essere utilizzate per questo? Ci sono dei rischi che il modello di regressione sia in qualche modo scorretto a causa della "cattiva codifica"?
Ma come poteva hotencoding aiuto quando si cercherà di prevedere un nuovo colore? Forse nel tuo caso devi riqualificare la modella. Avete qualche soluzione? – gtzinos