Sto utilizzando l'algoritmo Kmeans di learn di scikit per raggruppare i commenti.In che modo kmea sanno come raggruppare i documenti quando li alimentiamo solo con vettori di singole parole?
sentence_list=['hello how are you', "I am doing great", "my name is abc"]
vectorizer=TfidfVectorizer(min_df=1, max_df=0.9, stop_words='english', decode_error='ignore')
vectorized=vectorizer.fit_transform(sentence_list)
km=KMeans(n_clusters=num_clusters, init='k-means++',n_init=10, verbose=1)
km.fit(vectorized)
quando ho stampare l'output di vectorized, mi dà l'indice delle parole e dei punteggi TF-IDF dell'indice.
Quindi, mi chiedo, dato che otteniamo solo le decine di parole di tfidf, come è possibile che riusciamo a raggruppare i documenti in base a singole parole e non al punteggio di un intero documento? O forse lo fa .. Può qualcuno spiegarmi il concetto alla base di questo?
Non so cosa stai chiedendo. Il processo di divisione del testo in parole fa parte del processo di vettorizzazione/adattamento. – BrenBarn
il mio obiettivo finale è quello di essere in grado di tracciare un grafico 2D con l'asse y che è il punteggio di tfidf e l'asse x può essere il vettore di conteggio (o qualcos'altro che ha più senso) e ogni punto di dati è 1 documento. Quindi ero curioso di sapere se il punteggio per ogni frase è effettivamente calcolato dietro la scena in modo tale che i cluster con i punteggi più simili siano raggruppati insieme? – jxn