Ho familiarità con l'uso delle funzioni di BOW per la classificazione del testo, in cui per prima cosa troviamo la dimensione del vocabolario per il corpus che diventa la dimensione del nostro vettore di funzionalità. Per ogni frase/documento, e per tutte le sue parole costituenti, mettiamo quindi 0/1 a seconda dell'assenza/presenza di quella parola in quella frase/documento.Come utilizzare la rappresentazione vettoriale di parole (ottenute da Word2Vec, ecc.) Come funzionalità per un classificatore?
Tuttavia, ora che sto cercando di utilizzare la rappresentazione vettoriale di ogni parola, è essenziale creare un vocabolario globale?
cos'è "un vocabolario globale"? – Daniel
Ho bisogno di un vettore di funzionalità di lunghezza fissa per ogni frase, anche se il numero di parole in ogni frase è diverso. Quindi ho bisogno di contare la dimensione del vocabolario del mio intero corpus e di mantenere la lunghezza del vettore di funzionalità uguale alla dimensione del vocabolario. Questo è ciò che intendo per vocabolario globale. Dispiace per la confusione. Non ero abbastanza chiaro con le mie parole. –