2016-02-17 27 views
5

Sto provando a costruire un dizionario di parole usando Tf-idf. Tuttavia, intuitivamente non ha senso.Intuizione dietro Tf-idf per estrazione termine

Se la parte Frequenza documento inversa (Idf) di Tf-Idf calcola la rilevanza di un termine rispetto all'intero corpus, allora ciò implica che alcune delle parole importanti potrebbero avere una rilevanza inferiore.

Se consideriamo un corpus di documenti legali, un termine come "Licenza" o "Legale" potrebbe verificarsi in ogni documento. A causa di Idf, il punteggio per questi termini sarà molto basso. Tuttavia, in termini intuitivi, questi termini dovrebbero avere un punteggio più alto poiché questi sono chiaramente termini legali.

È tf-idf un approccio errato per la creazione di un dizionario di termini?

risposta

4

Sì, questi termini sono legali. Tuttavia, TF/IDF non tenta di valutare se sono rilevanti per un dominio specifico. Ti aiutano a distruggere documenti da quel dominio. Se un termine come legal si verifica in ogni documento, non aiuterebbe un classificatore a distinguere questi documenti. Tuttavia, se si mescolano i documenti legali con una serie casuale di documenti. Scopriresti che diventano improvvisamente estremamente rilevanti. Esattamente perché ti consentirebbero di distinguere i documenti legali e gli altri documenti.

In pratica sono più comunemente utilizzati per rimuovere "tipo di" parole di arresto. Per esempio. The si verifica in ogni documento e non ha alcun significato.

Se TF/IDF è buono per la costruzione di un dizionario dipende molto da ciò che si vuole fare in seguito con questo dizionario.

+0

Stavo pensando più alla creazione di un dizionario per tutti i termini legali utilizzando un corpus di documenti come set di caratteri. Ma hai ragione, è più utile se ho già quei termini e poi separo i documenti legali da quelli non legali. – jCoder

+1

Un modo in cui TFxIDF potrebbe essere utile è * isolare * i termini legali. Crea una base separata di documenti non legali (articoli principali di Wikipedia, esaminati per rimuovere gli argomenti legali?) E crea i tuoi valori IDF da quello. Ora applicalo in un calcolo TFxIDF della tua collezione di documenti legali. I termini esclusivamente legali avranno un IDF elevato e quindi risaltano, mentre le parole comuni che sono comuni su tutta la linea avranno un IDF basso e tendono ad affondare fino in fondo, anche se la TF è alta. – tripleee

+0

Nit pick: è TF/DF o TFxIDF dove IDF è definito come 1/DF. – tripleee