Sto cercando di seguire il Wikipedia Article on latent semantic indexing in Python utilizzando il seguente codice:analisi semantica latente in Python discrepanza
documentTermMatrix = array([[ 0., 1., 0., 1., 1., 0., 1.],
[ 0., 1., 1., 0., 0., 0., 0.],
[ 0., 0., 0., 0., 0., 1., 1.],
[ 0., 0., 0., 1., 0., 0., 0.],
[ 0., 1., 1., 0., 0., 0., 0.],
[ 1., 0., 0., 1., 0., 0., 0.],
[ 0., 0., 0., 0., 1., 1., 0.],
[ 0., 0., 1., 1., 0., 0., 0.],
[ 1., 0., 0., 1., 0., 0., 0.]])
u,s,vt = linalg.svd(documentTermMatrix, full_matrices=False)
sigma = diag(s)
## remove extra dimensions...
numberOfDimensions = 4
for i in range(4, len(sigma) -1):
sigma[i][i] = 0
queryVector = array([[ 0.], # same as first column in documentTermMatrix
[ 0.],
[ 0.],
[ 0.],
[ 0.],
[ 1.],
[ 0.],
[ 0.],
[ 1.]])
Come la matematica dice che dovrebbe funzionare:
dtMatrixToQueryAgainst = dot(u, dot(s,vt))
queryVector = dot(inv(s), dot(transpose(u), queryVector))
similarityToFirst = cosineDistance(queryVector, dtMatrixToQueryAgainst[:,0]
# gives 'matrices are not aligned' error. should be 1 because they're the same
cosa funziona, con la matematica che sembra non corretta: (da here)
dtMatrixToQueryAgainst = dot(s, vt)
queryVector = dot(transpose(u), queryVector)
similarityToFirst = cosineDistance(queryVector, dtMatrixToQueryAgainsst[:,0])
# gives 1, which is correct
Perché rou lavoro, e il primo no, quando tutto quello che posso trovare sulla matematica di LSA mostra il primo come corretto? Mi sento come se mi mancasse qualcosa di ovvio ...
Che cosa significa '## rimuovi dimensioni extra ...' coinvolgimento? – Avaris
modificato per mostrare la riduzione di rango – Jmjmh
a 'u, s, vt = linalg.svd (a, full_matrices = False)', dove è 'a' proveniente da ??? – Oerd