Ho un elenco di documenti e il punteggio tf-idf per ogni parola univoca nell'intero corpus. Come visualizzo quello su una trama 2-d per darmi un indicatore di quanti cluster avrò bisogno di eseguire k-means?Come faccio a visualizzare i punti dati dei vettori tf-idf per il clustering dei kmea?
Ecco il mio codice:
sentence_list=["Hi how are you", "Good morning" ...]
vectorizer=TfidfVectorizer(min_df=1, stop_words='english', decode_error='ignore')
vectorized=vectorizer.fit_transform(sentence_list)
num_samples, num_features=vectorized.shape
print "num_samples: %d, num_features: %d" %(num_samples,num_features)
num_clusters=10
Come potete vedere, io sono in grado di trasformare le mie frasi in una matrice documento TF-IDF. Ma non sono sicuro di come tracciare i punti dati del punteggio tf-idf.
Stavo pensando:
- aggiungere più variabili, come la lunghezza del documento e qualcos'altro
- fanno PCA per ottenere una potenza di 2 dimensioni
Grazie
Questa domanda probabilmente dovrebbe essere in datascience, non stackoverflow? – fnl