Vorrei tracciare un grafico 2D con l'asse x come asse di termine e y come punteggio TFIDF (o ID documento) per la mia lista di frasi. Ho usato scikit learn's fit_transform() per ottenere la matrice scipy ma non so come usare quella matrice per tracciare il grafico. Sto cercando di ottenere una trama per vedere quanto bene le mie frasi possano essere classificate usando kmea.trama di un documento tfidf grafico 2D
Ecco l'output di fit_transform(sentence_list)
:
(documento di identità, il numero termine) TFIDF segnare
(0, 1023) 0.209291711271
(0, 924) 0.174405532933
(0, 914) 0.174405532933
(0, 821) 0.15579574484
(0, 770) 0.174405532933
(0, 763) 0.159719994016
(0, 689) 0.135518787598
Ecco il mio codice:
sentence_list=["Hi how are you", "Good morning" ...]
vectorizer=TfidfVectorizer(min_df=1, stop_words='english', decode_error='ignore')
vectorized=vectorizer.fit_transform(sentence_list)
num_samples, num_features=vectorized.shape
print "num_samples: %d, num_features: %d" %(num_samples,num_features)
num_clusters=10
km=KMeans(n_clusters=num_clusters, init='k-means++',n_init=10, verbose=1)
km.fit(vectorized)
PRINT km.labels_ # Returns a list of clusters ranging 0 to 10
Grazie,
fa il seguente lavoro per voi? Dovrebbe se stai guardando solo una semplice trama 2D. http://matplotlib.org/examples/pylab_examples/simple_plot.html –