Sto iniziando con scikit-learn e sto cercando di trasformare un set di documenti in un formato su cui applicare il clustering e la classificazione. Ho visto i dettagli sui metodi di vettorizzazione e le trasformazioni di tfidf per caricare i file e indicizzare i loro vocabolari.scikit-learn, aggiungi funzionalità a un set di documenti vettorizzati
Tuttavia, ho metadati in più per ogni documenti, come ad esempio gli autori, la divisione che è stato responsabile, elenco di argomenti, ecc
Come posso aggiungere funzionalità ad ogni vettore documento generato dalla funzione di vettorizzazione?
eccellente, ci proverò, ma hstack sembra essere quello di cui ho bisogno. Grazie! – Mortimer