Si noti che i risultati potrebbero non essere necessariamente così diversi. Potresti semplicemente aver bisogno di diversi hyperparametri per le due opzioni per ottenere risultati simili.
L'ideale è testare ciò che funziona meglio per il tuo problema. Se non puoi permetterti questo per qualche motivo, la maggior parte degli algoritmi trarrà probabilmente beneficio dalla standardizzazione più che dalla normalizzazione.
Vedi here per alcuni esempi di quando si dovrebbe essere preferito rispetto all'altro:
Ad esempio, in cluster analisi, normalizzazione può essere particolarmente importante per comparare somiglianze tra caratteristiche basate su determinate misure di distanza. Un altro esempio importante è l'analisi delle componenti principali, in cui di solito preferiamo la standardizzazione rispetto al ridimensionamento Min-Max, poiché siamo interessati ai componenti che massimizzano la varianza (in base alla domanda e se il PCA calcola i componenti tramite la matrice di correlazione anziché matrice di covarianza, ma più su PCA nel mio precedente articolo).
Tuttavia, questo non significa che il ridimensionamento Min-Max non è affatto utile! Un'applicazione popolare è l'elaborazione delle immagini, in cui le intensità dei pixel devono essere normalizzate per rientrare in un determinato intervallo (ad esempio, da 0 a 255 per l'intervallo di colori RGB). Inoltre, l'algoritmo tipico della rete neurale richiede dati che su una scala 0-1.
Uno svantaggio della normalizzazione rispetto alla standardizzazione è che perde alcune informazioni nei dati, in particolare sui valori anomali.
Anche sulla pagina collegata, c'è questa immagine:

Come si può vedere, i cluster di scala tutti i dati molto vicini tra loro, che non può essere quello che vuoi. Potrebbe far sì che gli algoritmi come la discesa del gradiente impieghino più tempo per convergere verso la stessa soluzione che avrebbero su un set di dati standardizzato, oppure potrebbe addirittura renderlo impossibile.
"Normalizzare le variabili" non ha molto senso. La terminologia corretta è "normalizzare/ridimensionare le funzionalità". Se hai intenzione di normalizzare o scalare una funzione, dovresti fare lo stesso per il resto.
Questa domanda è stata utile per far emergere le basi di queste importanti caratteristiche dei dati. – javadba
https://stats.stackexchange.com/q/10289/173093 questa domanda può anche aiutare –