Sto provando a costruire un dizionario di parole usando Tf-idf. Tuttavia, intuitivamente non ha senso.Intuizione dietro Tf-idf per estrazione termine
Se la parte Frequenza documento inversa (Idf) di Tf-Idf calcola la rilevanza di un termine rispetto all'intero corpus, allora ciò implica che alcune delle parole importanti potrebbero avere una rilevanza inferiore.
Se consideriamo un corpus di documenti legali, un termine come "Licenza" o "Legale" potrebbe verificarsi in ogni documento. A causa di Idf, il punteggio per questi termini sarà molto basso. Tuttavia, in termini intuitivi, questi termini dovrebbero avere un punteggio più alto poiché questi sono chiaramente termini legali.
È tf-idf un approccio errato per la creazione di un dizionario di termini?
Stavo pensando più alla creazione di un dizionario per tutti i termini legali utilizzando un corpus di documenti come set di caratteri. Ma hai ragione, è più utile se ho già quei termini e poi separo i documenti legali da quelli non legali. – jCoder
Un modo in cui TFxIDF potrebbe essere utile è * isolare * i termini legali. Crea una base separata di documenti non legali (articoli principali di Wikipedia, esaminati per rimuovere gli argomenti legali?) E crea i tuoi valori IDF da quello. Ora applicalo in un calcolo TFxIDF della tua collezione di documenti legali. I termini esclusivamente legali avranno un IDF elevato e quindi risaltano, mentre le parole comuni che sono comuni su tutta la linea avranno un IDF basso e tendono ad affondare fino in fondo, anche se la TF è alta. – tripleee
Nit pick: è TF/DF o TFxIDF dove IDF è definito come 1/DF. – tripleee