2012-05-05 11 views

risposta

12

tf è frequenza termine IDF è frequenza inversa del documento che si ottiene dividendo il numero totale di documenti per il numero di documenti contenenti il ​​termine, e poi con il logaritmo di detto quoziente.

derivante effetto è raggruppare tutte le parole che sono derivati ​​dalla medesima radice (es: giocato, gioco, ..), questo raggruppamento aumenterà il verificarsi di tale radice, perché le frequenze sono calcolati utilizzando staminali non parole, Per Ad esempio, se hai 2 documenti: il primo contiene "riproduci" 2 volte e "riprodotto" 5 volte, e il secondo documento contiene "riproduci" 3 volte e "riprodotto" 1 volta se esegui una ricerca per " riprodurre 'senza scuotere il secondo documento sarà il primo perché ha più occorrenza della parola' play ', mentre se si arresta, entrambe le parole saranno' riprodotte 'dopo lo stemming e il primo documento sarà il primo perché contiene lo stelo gioca 7 volte e il secondo documento contiene lo stelo gioca 4 volte.

Per quanto riguarda la rimozione di stopword, si trova frequentemente in tutto il documento e non è considerata una parola chiave per nessuno di essi, avrà una frequenza alta senza scene.