2013-03-06 6 views
5

Sto iniziando con scikit-learn e sto cercando di trasformare un set di documenti in un formato su cui applicare il clustering e la classificazione. Ho visto i dettagli sui metodi di vettorizzazione e le trasformazioni di tfidf per caricare i file e indicizzare i loro vocabolari.scikit-learn, aggiungi funzionalità a un set di documenti vettorizzati

Tuttavia, ho metadati in più per ogni documenti, come ad esempio gli autori, la divisione che è stato responsabile, elenco di argomenti, ecc

Come posso aggiungere funzionalità ad ogni vettore documento generato dalla funzione di vettorizzazione?

risposta

8

È possibile utilizzare lo DictVectorizer per i dati categoriali extra e quindi utilizzare scipy.sparse.hstack per combinarli.

+0

eccellente, ci proverò, ma hstack sembra essere quello di cui ho bisogno. Grazie! – Mortimer