Sto lavorando su un problema di classificazione Web relativamente grande basato sul testo e sto pensando di utilizzare il classificatore multinomiale di Naive Bayes in sklearn in python e il framework scrapy per la scansione . Tuttavia, sono un po 'preoccupato che sklearn/python potrebbe essere troppo lento per un problema che potrebbe coinvolgere classificazioni di milioni di siti web. Ho già addestrato il classificatore su diverse migliaia di siti web da DMOZ. La struttura di ricerca è la seguente:Uso di sklearn e Python per una grande applicazione classificazione/raschiamento esercizio
1) Il crawler atterra su un nome di dominio e cancella il testo da 20 link sul sito (di profondità non più grande di uno). (Il numero di parole tokenizzate qui sembra variare tra poche migliaia fino a 150K per un'esecuzione campione del crawler) 2) Esegui il classificatore sklearn multionmial NB con circa 50.000 funzioni e registra il nome di dominio a seconda del risultato
La mia domanda è se un classificatore basato su Python sarebbe all'altezza del compito per un'applicazione di così larga scala o dovrei provare a riscrivere il classificatore (e magari anche il raschiatore e il tokenizzatore di parole) in un ambiente più veloce? Se sì, quale potrebbe essere quell'ambiente? O forse Python è sufficiente se accompagnato da qualche parallelizzazione del codice? Grazie