Qual è la soluzione migliore per analizzare il codice HTML se non riesco a utilizzare BeautifulSoup o lxml? Ho del codice che usa SGMLlib ma è un po 'di basso livello e ora è deprecato.Analisi HTML in Python
Preferirei se potesse stordire un po 'di HTML malformato anche se sono quasi certo che la maggior parte dell'input sarà abbastanza pulita.
Se posso chiedere, perché non puoi usare lxml o BS? –
Stavo cercando di evitare che le risposte fossero completamente sviate. Le mie ragioni per evitare BeautifulSoup sono estremamente discutibili ma lo stavo salvando per un altro giorno! (I miei motivi per evitare lxml sono semplici: un completo errore di installazione su Mac OSX o Linux :( –
Ecco come installare lxml su Linux: 'sudo apt-get install libxml2-dev libxslt-dev python2.7 -dev' ('python2.6-dev' se usi Python 2.6) Poi 'sudo pip install lxml'. – Jabba