In this pagina, si dice che:CBOW v.s. skip-gram: perché inverti il contesto e le parole target?
[...] saltare grammi inverte contesti e gli obiettivi, e cerca di prevedere ogni parola contesto dalla sua parola bersaglio [...]
Tuttavia, guardando di dati di addestramento che produce, il contenuto di X e Y coppia sembra essere intercambiabile, in cui tali due coppie di (X, Y):
(quick, brown), (brown, quick)
Quindi, perché distinguere così tanto tra contesto e obiettivi se è la stessa cosa alla fine?
Inoltre, facendo Udacity's Deep Learning course exercise on word2vec, mi chiedo perché sembrano fare la differenza tra questi due approcci che molto in questo problema:
Un'alternativa a saltare grammi è un altro modello Word2Vec chiamato CBOW (Continuous Bag of Parole). Nel modello CBOW, invece di predire una parola di contesto da un vettore di parole, si predice una parola dalla somma di tutti i vettori di parole nel suo contesto. Implementare e valutare un modello CBOW addestrato sul set di dati text8.
Questo non produce gli stessi risultati?
Questo post quora [https://www.quora.com/ What-are-the-continuous-bag-of-words-and-skip-gram-architectures] dice che skip-gram ha bisogno di meno dati per allenarsi rispetto a cbow, solo la vista opposta del tuo commento. Puoi giustificare la tua risposta con l'aiuto di qualsiasi documento pubblicato o così. – 0xF
Grazie per avermelo fatto notare! La spiegazione fornita in quell'articolo ha senso, quindi ho aggiornato la mia risposta. – Serhiy