Ho sviluppato un classificatore di spam utilizzando pandas e scikit per imparare fino al punto in cui è pronto per l'integrazione nel nostro sistema basato su haoop. A tal fine, ho bisogno di esportare il mio classificatore in un formato più comune rispetto al pickling.Esportare uno Scikit Impara la foresta casuale per l'uso sulla piattaforma Hadoop
Il modello Predictive Model Markup Language (PMML) è il mio formato di esportazione preferito. Gioca straordinariamente bene con Cascading, che già usiamo. Tuttavia, sorprendentemente non riesco a trovare alcuna libreria Python che esporti modelli di scikit-learn in PMML.
Qualcuno ha avuto esperienza con questo caso d'uso? Esiste un qualche tipo di alternativa al PMML che possa garantire l'interoperabilità tra scikit-learn e hadoop? Che dire di una solida libreria di esportazione PMML?
c'è una domanda simile su Quora http://www.quora.com/How-do-I-use-scikit-learn-with-Hadoop-and-Mapreduce – miraculixx
Grazie per l'input. L'utilizzo dell'API di streaming non è l'ideale, ma potrei dover ricorrere ad esso se tutto il resto fallisce. –
Classificazione spam come nello spam email? Come sei venuto a usare una Random Forest per questo? –