scikit-learn, aggiungi funzionalità a un set di documenti vettorizzati

Sto iniziando con scikit-learn e sto cercando di trasformare un set di documenti in un formato su cui applicare il clustering e la classificazione. Ho visto i dettagli sui metodi di vettorizzazione e le trasformazioni di tfidf per caricare i file e indicizzare i loro vocabolari.scikit-learn, aggiungi funzionalità a un set di documenti vettorizzati

Tuttavia, ho metadati in più per ogni documenti, come ad esempio gli autori, la divisione che è stato responsabile, elenco di argomenti, ecc

Come posso aggiungere funzionalità ad ogni vettore documento generato dalla funzione di vettorizzazione?

fonte

2013-03-06 Mortimer

È possibile utilizzare lo DictVectorizer per i dati categoriali extra e quindi utilizzare scipy.sparse.hstack per combinarli.

fonte

2013-03-06 21:25:42 ogrisel

eccellente, ci proverò, ma hstack sembra essere quello di cui ho bisogno. Grazie! – Mortimer

scikit-learn, aggiungi funzionalità a un set di documenti vettorizzati

risposta

Problemi correlati