2010-11-01 9 views
9

La carta: http://www2007.org/papers/paper215.pdfv'è un'implementazione dell'idea descritto in "Rilevamento NearDuplicates per Web Crawling"

sto solo chiedendo ci sono eventuali implementazioni del capitolo 3 della stessa carta. Intendo interrogare tra grandi dataset, NON solo il simhash (è facile trovare implementazioni simhash).

Grazie ~

+0

Se si propone il problema su http://codegolf.stackexchange.com/ probabilmente si termina con un'implementazione perl a 250 byte gratuitamente. È uno scherzo. – robermorales

risposta

0

Ecco one anche se non ho ancora testato funziona. La cosa buona è l'opensource.

+0

L'ho già trovato. Voglio dire, sto cercando l'implementazione del capitolo 3 in quel documento. Ma ancora grazie ~ –

0

Questo è un problema in Data mining e similarity search. Vi sono numerosi articoli che descrivono come ciò può essere fatto e il ridimensionamento di grandi quantità di dati.

Ho un'implementazione (github : mksteve, clustering, con alcuni commenti a riguardo nel mio blog) di wikipedia : Metric tree. Ciò richiede che le misure che stai facendo incontrino la disuguaglianza triangolare (wikipedia : Metric space), ovvero che la distanza metrica dall'elemento A all'articolo C sia inferiore o uguale alla distanza da A a B + la distanza da B a C.

Dato Ineguaglianza, è possibile tagliare lo spazio di ricerca, quindi vengono cercati solo sotto-alberi che possono sovrapporsi all'area di destinazione. Senza questa funzione essere vero (metrico-spazio)

Forse il numero di bit di differenza nel simhash sarebbe uno spazio metrico

L'uso generale di questi set di dati, è menzionato nel documento quando menziona mapReduce, che generalmente viene eseguito su un hadoop cluster. I nodi di elaborazione hanno ciascuno un sottoinsieme di dati e trovano un insieme di corrispondenze di destinazione dai loro dataset locali. Questi sono poi combinati per dare un elenco completo di oggetti simili.

Ci sono alcuni documenti (incerti di riferimenti) che alludono all'uso di m-tree in un cluster, dove diverse parti dello spazio di ricerca sono date a diversi cluster, ma non sono sicuro che l'infrastruttura di hadoop possa supportare usando un'astrazione di così alto livello.