Ho questa query XPath:Come estrarre i link da una pagina Web usando lxml, XPath e Python?
/html/body//tbody/tr[*]/td[*]/a[@title]/@href
Estrae tutti i link con l'attributo title - e dà la href
in FireFox's Xpath checker add-on.
Tuttavia, non riesco a usarlo con lxml
.
from lxml import etree
parsedPage = etree.HTML(page) # Create parse tree from valid page.
# Xpath query
hyperlinks = parsedPage.xpath("/html/body//tbody/tr[*]/td[*]/a[@title]/@href")
for x in hyperlinks:
print x # Print links in <a> tags, containing the title attribute
Questo non produce alcun risultato da lxml
(elenco vuoto).
Come si prende il testo href
(collegamento) di un collegamento ipertestuale contenente il titolo dell'attributo con lxml
in Python?
Il documento che si sta analizzando ha uno spazio dei nomi (xmlns) impostato? –