Sto cercando un parser di microdata HTML di buona qualità in Python. Non deve essere velocissimo, ma mi piacerebbe che supporti il più possibile il the spec, incluso itemref
.Quale parser Microdata dovrei usare in Python
Ecco quello che ho trovato finora:
- https://github.com/edsu/microdata
- https://github.com/RDFLib/pymicrodata
- https://pypi.python.org/pypi/pelican-microdata/0.1
Hai usato una di queste librerie? Quali erano i pro e i contro?
Sono anche curioso di analizzare documenti HTML formattati male. Hai trovato un parser Microdata che gestisce l'input disordinato o esegui l'input tramite qualcosa come BeautifulSoup prima?
O RDF di JSON sono accettabili. Finché riesco a scorrere i valori delle proprietà di un oggetto. Alla fine potrei essere interessato a ottenere l'output come JSON-LD ma probabilmente sulla stessa quantità di lavoro da generare da JSON o RDF. –
Ho finito per usare il parser di Ed Summers. Ha gestito tutto ciò che ho lanciato finora. Grazie! –