Total Number documents in Corpus
è semplicemente la quantità di documenti che hai nel tuo corpus. Quindi se hai 20 documenti, questo valore è 20
.
Number of Document matching term
è il numero di in quanti documenti viene visualizzato il termine t
. Quindi, se si dispone di 20 documenti in totale e il termine t
si verifica in 15 dei documenti poi il valore per Number of Documents matching term
è 15.
Il valore per questo esempio sarebbe quindi IDF(t,D)=log(20/15) = 0.1249
Ora, se non sbaglio, hai più categorie per documento e vuoi poter categorizzare nuovi documenti con una o più di queste categorie. Un metodo per farlo sarebbe creare un documento per ogni categoria. Ogni documento di categoria dovrebbe contenere tutti i testi etichettati con questa categoria. È quindi possibile eseguire tf*idf
su questi documenti.
Un modo semplice di classificare un nuovo documento potrebbe quindi essere ottenuto sommando i valori del termine della query utilizzando i diversi valori di termine calcolati per ciascuna categoria. La categoria i cui valori di termine, utilizzati per calcolare il prodotto, determinano il risultato più alto saranno quindi classificati al primo posto.
Un'altra possibilità è creare un vettore per la query utilizzando lo idf
di ciascun termine nella query. A tutti i termini che non si verificano nella query viene assegnato il valore di 0
. Il vettore di query può quindi essere confrontato per somiglianza con ciascun vettore di categoria utilizzando, ad esempio, cosine similarity.
Smoothing è anche una tecnica utile per gestire le parole in una query che non si verificano nel corpus.
Suggerisco di leggere sections 6.2 and 6.3 di "Introduzione al recupero delle informazioni" di Christopher D. Manning, Prabhakar Raghavan e Hinrich Schütze.
Grazie .. Ho una risposta. Ma puoi spiegare la categorizzazione di un nuovo documento poco elaborato? Ecco come ottenere la categoria corrispondente per il nuovo documento ?. Quindi come si forma il vettore di frequenza per il nuovo documento per fare la corrispondenza? .. –
Ho aggiunto le informazioni alla mia risposta. – Sicco
Grazie per l'aiuto .. –