2010-07-21 1 views
5

Sono curioso di sapere quali termini o metodi di programmazione vengono utilizzati quando Google mostra il collegamento "volevi dire" per una parola composta da più parole?Come fa sapere Google se digito in redflower.jpg Intendo Fiore rosso?

Ad esempio, se digito "redflower.jpg" Sa rompere questo in Red Flower Esiste un paradigma comune per eseguire questo tipo di operazione? Ti darebbe una ricerca Lucene?

grazie!

risposta

4

Se google non vede molti risultati corrispondenti per reflowers.jpg, potrebbe quindi provare a tagliare le parole in più parole fino a trovare molti risultati corrispondenti.

Potrebbe anche riconoscere l'estensione (.jpg), riconoscere l'estensione dell'immagine e quindi provare a trovare le immagini con il nome simile.

Se dovessi fare un algoritmo come questo, userei un enorme database ESISTENTE (un dizionario o un motore di ricerca) e poi proverò ciò che ho detto all'inizio del mio post.

+2

Ahh i vantaggi di essere una società incredibilmente ricca con un sistema di backend massicciamente utilizzato e massicciamente scalabile ... – notJim

+0

Sì! In particolare, probabilmente utilizza un dizionario per riconoscere il fatto che Red e Flower sono parole e quindi utilizza la probabilità di frasi particolari che si verificano in qualsiasi lingua pensi che stai usando per scoprire quale frase è più probabile. Ad esempio, propone "Fiore rosso" anziché "Redfl Ower" o "Red FL ower" o "Red Flow Er" perché "Fiore rosso" è molto più probabile. – nearlymonolith

+0

ma come fanno a sapere come tagliare le parole al punto giusto? – James

1

Forse potrebbero guardare cosa fanno gli altri quando hanno cercato redflowers.jpg? Forse un numero di persone ha cercato "redflowers.jpg", non ha fatto clic su alcun collegamento, quindi ha cercato "Fiore rosso" e ha trovato risultati che meritavano di essere cliccati.

Ovviamente dovrebbero prendere in considerazione che le query sono simili (contengono stringhe corrispondenti), altrimenti potrebbero apparire alcuni risultati strani.