Mi sono impostato con Amazon Elastic MapReduce per preformare varie attività di apprendimento automatico standard. Ho usato Python estesamente per l'apprendimento automatico locale in passato e non conosco Java.Esistono librerie di apprendimento automatico distribuite per l'utilizzo di Python con Hadoop?
Per quanto posso dire, non esistono librerie Python ben sviluppate per l'apprendimento automatico distribuito. Java invece ha il Apache Mahout e il più recente Oryx da Cloudera.
In sostanza, mi sembra di dover scegliere tra due opzioni. Esegui il parallelismo con i miei algoritmi da utilizzare con Hadoop streaming o uno degli Python wrapper for Hadoop finché non esistono librerie decenti o salta su Java per poter utilizzare Mahout/Oryx. C'è un mondo di differenza tra scrivere il proprio codice di numero di parole MapReduce e scrivere il proprio MapReduce SVM! Anche con l'aiuto di fantastici tutorial come this.
non so che è la scelta più saggia, quindi la mia domanda è:
A) C'è qualche libreria Python che ho perso che sarebbe utile? In caso contrario, sai se ci sono sviluppi in corso che saranno utili nel prossimo futuro?
B) Se la risposta a quanto sopra non è la mia ora sarebbe meglio passare la nave a Java?
Partenza: http://stackoverflow.com/questions/4819437/javas-mahout-equivalent-in-python – alexplanation
Domande che ci chiedono di ** consigliare o trovare uno strumento, biblioteca o preferito di risorse off-site ** sono off-topic per Stack Overflow in quanto tendono ad attirare risposte e spam contestati. Invece, [descrivi il problema] (http://meta.stackexchange.com/q/139399/) e cosa è stato fatto finora per risolverlo. –
Passare a [Consigli software] (http://area51.stackexchange.com/proposals/60887/software-recommendations?referrer=L1kFo5C96mMK8IujJZeI4A2) quando verrà aperto. – user