Ciao a tutti in tutto il mondo,Plagio Analyzer (confrontato con Web Content)
Sfondo
Sono uno studente dell'ultimo anno di Informatica. Ho proposto il mio progetto Final Double Module che è un analizzatore di plagio, utilizzando Java e MySQL.
Il Plagio analizzatore:
- scansione tutti i paragrafi del documento caricato. Analizza la percentuale di ogni paragrafo copiato da quale sito web.
- Evidenzia solo le parole copiate esattamente da quale sito Web in ogni paragrafo.
Il mio obiettivo principale è sviluppare qualcosa come il Turnitin, se possibile migliorato.
Ho meno di 6 mesi per sviluppare il programma. Ho esaminato il seguente:
- Implementazione Web crawler. Probabilmente utilizzerà l'API di Lucene o lo sviluppo del mio crawler (quale è migliore in termini di sviluppo del tempo e anche di usabilità?).
- Hashing e indicizzazione. Per migliorare la ricerca e l'analisi.
Domande
Ecco le mie domande:
- Can MySQL negozio che molte informazioni?
- Mi sono perso argomenti importanti?
- Quali sono le vostre opinioni riguardo a questo progetto?
- Eventuali suggerimenti o tecniche per l'esecuzione dell'analisi di somiglianza?
- Un paragrafo può essere sottoposto a hash, oltre che a parole?
Grazie in anticipo per qualsiasi aiuto e consiglio. ^^
Questo non conta come erba sui tuoi compagni studenti? ;-) – Steve314
Si consiglia di dare un'occhiata alla distanza di compressione normalizzata: http://stackoverflow.com/questions/1085048/how-would-you-code-an-anti-plagiarism-site/1085085#1085085 – Stephan202
Grazie a lotto Stephan202 per evidenziarlo! ;) –