Dato una pagina Web di articoli di notizie (da qualsiasi fonte di notizie importanti come times o bloomberg), voglio identificare il contenuto dell'articolo principale su quella pagina e buttare fuori gli altri elementi misc come annunci, menu, barre laterali, commenti degli utenti.Web scraping: come identificare il contenuto principale di una pagina Web
Qual è un modo generico per farlo che funzionerà sulla maggior parte dei principali siti di notizie?
Quali sono alcuni buoni strumenti o librerie per il data mining? (preferibilmente basato su Python)
vedere come 'Readability' segnalibro è implementato http://lab.arc90.com/experiments/readability/ – jfs
A browser che fa questo sarebbe una grande minaccia per gli annunci online. –
il codice del bookmarklet originale è qui: http://code.google.com/p/arc90labs-readability/source/browse/ 'Readability' è ora un servizio e il suo codice non è disponibile. – lsh