Vorrei replicare la funzionalità utilizzata da Facebook per analizzare un collegamento. Quando si invia un collegamento nello stato di Facebook, il sistema esce e recupera uno title
suggerito, summary
e spesso uno o più image
rilevanti da quella pagina, da cui è possibile scegliere una miniatura.Recupero dei riepiloghi dei link di tipo Facebook (titolo, riepilogo, immagini rilevanti) utilizzando Python
La mia applicazione deve eseguire questa operazione utilizzando Python, ma sono aperto a qualsiasi tipo di guida, post di blog o esperienza di altri sviluppatori che si riferisce a questo e potrebbe aiutarmi a capire come realizzarlo. .
mi piacerebbe davvero imparare dalle esperienze di altre persone prima solo saltare in
Per essere chiari, quando dato l'URL di una pagina web, voglio essere in grado di recuperare:
- Il titolo: probabilmente solo il tag
<title>
ma probabilmente lo<h1>
, non è sicuro. - Un riepilogo di un paragrafo della pagina.
- Un gruppo di immagini pertinenti che potrebbero essere utilizzate come miniatura. (La parte difficile è filtrare immagini irrilevanti come banner o angoli arrotondati)
Potrei doverlo implementare da solo, ma vorrei almeno sapere come altre persone hanno svolto questo tipo di attività.
BeautifulSoup non è ben supportato in Python 3.1, e il suo autore originale non fa più molto sviluppo. Probabilmente è meglio usare lxml.html e/o html5lib (quest'ultimo è raccomandato dall'autore di BeautifulSoup). – lunaryorn
Buono a sapersi per riferimento futuro. Grazie! –