Data una query, ho un punteggio di coseno per un documento. Ho anche il pagerank dei documenti. C'è un buon modo standard per combinare i due?Combinare TF-IDF (somiglianza del coseno) con pagerank?
Stavo pensando di moltiplicarli
Total_Score = cosine-score * pagerank
Perché se si arriva a basso su entrambi pagerank o il coseno-score, il documento non è interessante.
Oppure è preferibile avere una somma ponderata?
Total_Score = weight1 * cosine-score + weight2 * pagerank
È meglio? Quindi potresti avere un punteggio zero del coseno, ma un pagerank alto, e la pagina comparirà tra i risultati.
La somma ponderata si trova sulla traccia corretta, ma si desidera eseguire hat w * log (PageRank)? o w * log (1 + PageRank)? Tutto questo sarebbe una combinazione lineare, non vorresti considerare una combinazione non lineare invece che abbia una firma sigmoidea? – sAguinaga