Ho snapshot di più pagine Web prese in 2 volte. Qual è un metodo affidabile per determinare quali pagine web sono state modificate?come determinare se la pagina web è stata modificata
Non posso fare affidamento su qualcosa come un feed RSS, e ho bisogno di ignorare il rumore minore come il testo della data.
Idealmente sto cercando una soluzione Python, ma anche un algoritmo intuitivo sarebbe fantastico.
Grazie!
Intendi immagini quando dici istantanee? O HTML storico? –
solo l'HTML - nessun file di supporto – hoju
Vuoi diffare la struttura (tag html) o il contenuto o entrambi? – elhoim