Ho bisogno di sviluppare un motore di ricerca verticale come parte del sito web. I dati per il motore di ricerca provengono da siti Web di categorie specifiche. Immagino per questo che ho bisogno di avere un crawler che esegue la scansione di diversi (poche centinaia) siti (in una specifica categoria di business) ed estrarre contenuti e URL di prodotti e servizi. Altri tipi di pagine potrebbero essere irrilevanti. La maggior parte dei siti sono piccoli o piccoli (alcune centinaia di pagine al massimo). I prodotti hanno da 10 a 30 attributi.Sviluppo di un crawler e di un raschietto per un motore di ricerca verticale
Qualsiasi idea su come scrivere un crawler e un estrattore. Ho scritto alcuni crawler ed estrattori di contenuti usando le solite ruby library, ma non un vero e proprio motore di ricerca. Immagino che, crawler, di tanto in tanto, si riattiva e scarica le pagine dai siti web. Ovviamente si seguiranno comportamenti educati come il controllo delle regole di esclusione dei robot. Mentre il content extractor può aggiornare il database dopo aver letto le pagine. Come sincronizzare il crawler e l'estrattore? Quanto dovrebbero essere integrati?
Gli attributi di tutti i siti verranno memorizzati nella stessa posizione? Ad esempio, hai 30+ colonne su una tabella di database. – BenMaddox