2013-02-07 11 views
5

Supponiamo che ci siano tre sequenze da confrontare: a, b e c. Tradizionalmente, la risultante matrice di distanza a 3 a 3 risultante è simmetrica, a indicare che la distanza da a a b è uguale alla distanza da b a a.Una matrice "asimmetrica" ​​a distanza bidirezionale

Mi chiedo se TraMineR fornisca un modo per produrre una matrice di distanza a coppie assiale .

+5

Non ho mai usato TraMineR, ma una parola di cautela su un problema secondario: se la misura è asimmetrica, non si adatta più alla definizione di distanza. Questo potrebbe essere un punto interamente accademico. Ma ho il sospetto che userete questa matrice in qualche algoritmo più tardi, e se quell'algoritmo presuppone che gli avete fornito una metrica di distanza quando in realtà non lo avete fatto, la cattiveria potrebbe risultare in un modo difficile da diagnosticare. –

+2

Le domande relative a come fare qualcosa in un particolare software di solito appartengono a StackOverflow, quindi ho contrassegnato questa domanda per la migrazione. Tuttavia, TraMineR ha anche un proprio elenco, che potrebbe essere un sito ancora migliore su cui chiedere questo. –

risposta

6

No, TraMineR non produce dissimetria "assimetrica" ​​proprio per le ragioni evidenziate nel commento di Pat.

L'interesse principale di calcolare differenze a coppie tra le sequenze è che una volta abbiamo tali differenze possiamo per esempio

  • misura la discrepanza tra le sequenze, determinare quartieri, trovare medoids, ...
  • grappolo
  • run algoritmi, mappe auto-organizzanti, MDS, ...
  • fare analisi ANOVA simile a delle sequenze
  • crescono alberi di regressione per le sequenze

Immettendo una matrice di dissomiglianza non simmetrica in quei processi molto probabilmente genererebbe risultati irrilevanti.

È a causa di questa esigenza di simmetria che i costi di sostituzione utilizzati per calcolare le distanze di corrispondenza ottimali DEVONO essere simmetrici. È importante non interpretare i costi di sostituzione come il costo del passaggio da uno stato all'altro, ma per comprenderli per quello che sono, cioè modificare i costi. Quando si confrontano due sequenze, ad esempio aabcc e aadcc, possiamo renderle uguali sostituendo arbitrariamente b con d nel primo o d con b nel secondo. Non avrebbe quindi senso dare lo stesso costo per le due sostituzioni.

Spero che questo aiuti.

+0

Grazie mille per la tua grande spiegazione! Se la mia comprensione è corretta, tuttavia, trovo un documento in cui è stata creata una matrice di distanza a due a due asimmetrica, quindi viene utilizzata per l'analisi del clustering. In qualche modo assegnano pesi diversi per l'inserimento e la cancellazione e utilizzano l'algoritmo di clustering Taylor-Butina con la matrice della distanza asimmetrica. Il documento è "Incorporando informazioni sequenziali nei modelli di classificazione tradizionali utilizzando un SAM sensibile agli elementi/posizione" scritto da Anita Prinzie e Dirk Van den Poel. – POTENZA