Python: Clustering Search Engine ParolePython: Clustering Search Engine Parole
Ciao, ho un CSV, fino a 20.000 righe (ho avuto 100.000 + per diversi siti web), ogni riga contiene una parola chiave di riferimento (vale a dire una parola chiave che qualcuno ha digitato in un motore di ricerca per trovare il sito Web in questione) e un certo numero di visite.
Quello che sto cercando di fare è raggruppare queste parole chiave in gruppi di "significato simile" e creare una gerarchia dei cluster (strutturata in ordine di numero totale di ricerche per cluster).
Un esempio di cluster - "Abbigliamento Donna" - idealmente contenere le parole chiave in questo senso: abbigliamento donna, 1000 signore portano, 300 vestiti donne, 50 abbigliamento donna, 6 delle donne porta, 2
Potrei cercare di usare qualcosa come il Python Natural Language Toolkit: http://www.nltk.org/ e WordNet, ma, suppongo che per alcuni siti web le parole chiave di riferimento siano parole/frasi di cui WordNet non sa nulla. Ad esempio, se il sito Web è un sito di celebrità, è improbabile che WordNet sappia qualcosa su "Lady Gaga", situazione peggiore se il sito Web è un sito Web di notizie.
Quindi, suppongo anche che la soluzione debba essere quella che sembra utilizzare solo i dati di origine.
La mia query è molto simile a quella generata a How to cluster search engine keywords?, solo che sto cercando un punto da cui partire, ma usando Python anziché Java.
Mi sono anche chiesto se Google Predict e/o Google Refine potrebbero essere di qualche utilità.
In ogni caso, tutti i pensieri/suggerimenti più graditi,
Grazie, C
Non può fare a meno di mettere in giro la mia [risposta a una domanda relativa] (http://stackoverflow.com/questions/4787984/i-want-to-get-related-searches-or-keywords). – 9000