Sto provando a creare un parser HTML generalizzato che funzioni bene sui post dei blog. Voglio puntare il mio parser sull'URL specifico di entrie e recuperare il testo pulito del post stesso. Il mio approccio di base (da python) è stato quello di utilizzare una combinazione di BeautifulSoup/Urllib2, che va bene, ma presuppone che tu conosca i tag appropriati per il blog. Qualcuno ha qualche idea migliore?Crea Great Parser - Estrai testo pertinente da HTML/Blog
Ecco alcuni pensieri su cui qualcuno potrebbe espandersi, che non ho ancora abbastanza conoscenze/know-how da implementare.
Il programma unix 'lynx' sembra di analizzare i post del blog particolarmente bene - quello parser si usano, o come potrebbe essere utilizzato?
Esistono servizi/parser che rimuovono automaticamente annunci indesiderati, ecc.?
In questo caso, ho avuto una vaga idea che possa essere una buona ipotesi che i post dei blog siano di solito contenuti in un determinato tag di definizione con class = "entry" o qualcosa di simile. Quindi, potrebbe essere possibile creare un algoritmo che trovi i tag che racchiudono con il testo più pulito tra di loro - qualche idea su questo?
Grazie!
Lynx utilizza un proprio parser di tagoup. Il codice sorgente è disponibile. – Quentin