Quali sono alcuni dei fattori decisivi da prendere in considerazione quando si sceglie un indice di similarità. In quali casi è preferibile una distanza euclidea rispetto a Pearson e viceversa?Come sapere quando utilizzare un particolare tipo di indice di similarità? Distanza euclidea vs. correlazione di Pearson
risposta
La correlazione è indipendente dall'unità; se ridimensionate uno degli oggetti dieci volte, otterrete differenti distanze euclidee e stesse distanze di correlazione. Pertanto, le metriche di correlazione sono eccellenti quando si desidera misurare la distanza tra tali oggetti come i geni definiti dal loro profilo di espressione.
Spesso, la correlazione assoluta o al quadrato viene utilizzata come metrica di distanza, perché siamo più interessati alla forza della relazione che al suo segno.
Tuttavia, la correlazione è adatta solo per dati altamente dimensionali; non c'è quasi un punto per calcolarlo per punti dati bidimensionali o tridimensionali.
Si noti inoltre che "Pearson distance" è un tipo ponderato di distanza euclidea, e non la "distanza di correlazione" utilizzando il coefficiente di correlazione di Pearson.
Dipende davvero dallo scenario di applicazione che hai in mano. Molto brevemente, se si tratta di dati in cui la differenza effettiva in valori di attributi è importante, andare con Distanza euclidea. Se stai cercando la somiglianza di tendenza o di forma, vai con la correlazione. Si noti inoltre che, se si esegue la normalizzazione del punteggio z in ciascun oggetto, la Distanza euclidea si comporta in modo simile al coefficiente di correlazione di Pearson. Pearson non è sensibile alle trasformazioni lineari dei dati. Esistono altri tipi di coefficienti di correlazione che tengono conto solo dei ranghi dei valori, essendo insensibili alle trasformazioni sia lineari che non lineari. Si noti che l'uso abituale della correlazione come dissomiglianza è 1 - correlazione, che non rispetta tutte le regole per una distanza metrica.
Ci sono alcuni studi sul quale misura la vicinanza SELECT su una particolare applicazione, per esempio:
Pablo A. Jaskowiak, Ricardo Campello JGB, Ivan G. Costa Filho, "Misure di prossimità per il clustering di espressione genica microarray dati: Una metodologia di convalida e un'analisi comparativa, "Transazioni IEEE/ACM su biologia computazionale e bioinformatica, vol. 99, no. PrePrints, p. 1, 2013