Si consideri il seguente:Python - Regex - Come trovare una corda tra due insiemi di stringhe
<div id=hotlinklist>
<a href="foo1.com">Foo1</a>
<div id=hotlink>
<a href="/">Home</a>
</div>
<div id=hotlink>
<a href="/extract">Extract</a>
</div>
<div id=hotlink>
<a href="/sitemap">Sitemap</a>
</div>
</div>
Come si va di prendere la linea sitemap con espressioni regolari in pitone?
<a href="/sitemap">Sitemap</a>
Di seguito può essere utilizzato per tirare fuori i tag di ancoraggio.
'/<a(.*?)a>/i'
Tuttavia, ci sono più tag di ancoraggio. Inoltre ci sono più hotlink (s) quindi non possiamo davvero usarli?
Si avrà probabilmente sentire che le espressioni regolari non sono adatti per l'analisi di un contesto di libera linguaggio come HTML. – Gumbo
Se sei quello che genera quell'HTML, vale la pena notare che molti attributi identici 'id =' non sono validi. Un 'class =' è più appropriato. –