This potrebbe essere un buon punto di partenza. È il codice sorgente completo (il parser di testo, l'archiviazione dei dati e il classificatore) per un'implementazione python di un classificatore bayesiano ingenuo. Anche se è completo, è ancora abbastanza piccolo da essere digerito in una sola sessione. Penso che il codice sia ragionevolmente ben scritto e ben commentato. Questo fa parte dei file del codice sorgente per il libro Programmazione Intelligenza Collettiva.
Per ottenere il sorgente, fare clic sul collegamento, dl e decomprimere lo zip, dalla cartella principale 'PCI_Code', andare alla cartella 'capitolo 6', che ha un file di origine python 'docclass.py. Questo è il codice sorgente completo per un filtro antispam bayesiano. I dati di addestramento (e-mail) sono mantenuti in un database SQLite che è anche incluso nella stessa cartella ('test.db') L'unica libreria esterna di cui hai bisogno sono i collegamenti Python a sqlite (pysqlite); è necessario anche lo stesso sqlite se non lo si è già installato).
C'è qualcosa che sai di quali variabili continue? – disappearedng
Il [pebl tutorial] (http://ano.malo.us/pebl/docs/tutorial.html) riguarda la discretizzazione, quindi presumo che possa gestire variabili continue tramite quel metodo, almeno. –