2013-04-03 5 views
5

ho visto molti database per l'estrazione modello sequenziale e le sequenze che prendono in questi database sono comeCosa gli articoli in una reperesent staffa nel modello sequenziale mineraria

< (af) (d) (e) (un)>

< (e) (ABF) (BDE)>

Che cosa significa l'insieme di elementi in una staffa come (AF), (ABF), (BDE) rappresentano? Significa che sono collegati tra loro o qualcos'altro

Su quali basi classifichiamo gli articoli in questo unico elemento? Sto usando un file weblog come set di dati.

risposta

4

L'input di un algoritmo di mining sequenziale è un database di sequenze. Una sequenza è un elenco ordinato di set di elementi.

Ecco un esempio di sequenza:

< (e) (ABF) (BDE)>

Questa sequenza deve essere interpretato come segue:

prima voce "e" si è verificato. È stato quindi seguito da "a", "b" e "f" contemporaneamente. Questi elementi sono quindi seguiti da "b", "d" ed "e" contemporaneamente.

Quindi si presume che le voci della risposta tra parentesi siano non ordinate o che si verificano nello stesso momento. Gli elementi tra parentesi sono chiamati "set di elementi".

Si noti che si presume inoltre che nessun articolo possa apparire più di una volta in un set di elementi. Quindi è illegale disporre di un set di elementi come (a a b)

Inoltre, si dovrebbe anche sapere che la maggior parte degli algoritmi sequenziali di pattern mining presuppongono che gli elementi in un set di elementi siano ordinati lessicalmente (ad esempio PrefixSpan). Se gli articoli non sono ordinati lessicalmente in un set di elementi, gli algoritmi potrebbero non fornire il buon risultato perché utilizzano un'ottimizzazione che prende questa ipotesi.

Se si desidera provare un algoritmo di estrazione sequenziale di pattern, è possibile dare un'occhiata al software SPMF: http://www.philippe-fournier-viger.com/spmf/ che fornisce un'interfaccia utente grafica e molti esempi (io sono il fondatore del progetto).

Spero che risponda bene alla tua domanda.