2010-05-30 3 views
5

Desidero eseguire il reverse engineering di qualsiasi pagina Web in una rappresentazione logica della pagina. Ad esempio, se una pagina Web ha un menu, quindi voglio una struttura logica del menu, forse in XML. Se la pagina web ha un articolo, voglio un nodo XML articolo, se ha un titolo per l'articolo voglio un nodo XML titolo. Fondamentalmente, voglio la forma logica della pagina web senza alcuna interfaccia utente.Reverse Engineer una pagina Web

Questo modello logico può essere o gli oggetti in codice o XML non importa, la parte importante è che ha identificato ciò che significa tutto sulla pagina.

risposta

3

Suona come quello che vuoi richiede un essere umano per categorizzare i contenuti di una pagina.

Questo potrebbe essere automatizzato, tuttavia avrebbe falsi positivi e non funzionerebbe in ogni caso.

Ad esempio, cosa succede se una pagina utilizzava un ul per un menu e un altro utilizzava celle di tabella?

Vuoi questo per un sito in particolare, o qualsiasi sito su Internet?

0

ne dite di parsing XML già sulla pagina, vedere

http://en.wikipedia.org/wiki/XHTML

+3

Stavo per suggerire anche che converte l'intera Internet per XHTML;) – Onots

+0

mi fa venir voglia di scoprire che GIF delle finestre dialogo di trasferimento che dice 'Download di Internet ...' – alex

+2

@alex - http://www.gifbin.com/982378 :) Tuttavia, la dimensione sembra un po 'piccola ora .... –