Ho un sito Web classificato (in PHP e Mysql) in cui gli utenti possono pubblicare i propri annunci gratuitamente. Ma gli utenti spesso pubblicano annunci duplicati. Lo script non consente loro di pubblicare contenuti duplicati esatti, quindi lo fanno cambiando uno o due caratteri.Come rimuovere i contenuti duplicati?
C'è un modo per trovare l'annuncio duplicato e avvisare l'utente (anche se hanno modificato parte del testo)?
Il mio sito è in PHP e Mysql. Sto usando sphix per la ricerca. Pensando di cambiarlo in mongodb e apache solr.
Quanto lontano si vuole controllare se il contenuto è duplicato? Quanti personaggi? Potresti lavorare con una restrizione secondo cui le persone possono pubblicare un annuncio solo una volta alla settimana. –
I tuoi utenti aggiungono parametri falsi, ad esempio http://foo.com/image.png?fakeparam=1? In questo caso, è possibile rimuovere tutti i parametri e considerare solo l'URL senza parametri. Tuttavia, questo non impedirà alle persone di ricaricare lo stesso file con un nome diverso ... –
@ Alexander Cogneau Prenderò in considerazione l'annuncio come duplicato se il contenuto è simile all'80% (tranne le parole di arresto come è, il, era, lì, ecc.) No, non possiamo limitare le persone che pubblicano più annunci nello stesso giorno. Possiamo trovare manualmente i contenuti duplicati pubblicati nello stesso giorno, ma non possiamo cercare i post vecchi di una settimana –