Sto pianificando di scrivere un webcrawler per un progetto NLP, che legge la struttura di thread di un forum ogni volta in un intervallo specifico e analizza ogni thread con nuovi contenuti. Attraverso le espressioni regolari, vengono estratti l'autore, la data e il contenuto dei nuovi post. Il risultato viene quindi memorizzato in un database.Erlang è la scelta giusta per un webcrawler?
La lingua e la Piattaforma utilizzata per il crawler devono corrispondere ai seguenti criteri:
- facilmente scalabile su più core e CPU
- adatti per alta I carichi/O
- veloce espressione regolare che corrisponde
- facilmente per mantenere/alcune spese operative
Dopo alcune ricerche penso Erlan g potrebbe essere un candidato adatto, ma ho letto che non è molto bravo nell'elaborazione delle stringhe (e quindi nella corrispondenza delle espressioni regolari). Né ho alcuna esperienza circa il fattore di manutenzione.
Erlang è una buona tecnologia per lo scenario sopra descritto? E se no, quale sarebbe una buona alternativa?
Questo probabilmente è meglio richiesto su http: //programmers.stackexchange.com; cade sotto "non costruttivo" qui IMHO –
I tuoi criteri hanno almeno tanto a che fare con il design e l'architettura generale come la lingua. Puoi costruire webcrawlers scalabili in Erlang, Python, Java, qualunque cosa. Dipende anche dalla tua attuale esperienza linguistica di programmazione e dai tuoi tempi. – DNA
Mi piacerebbe davvero usare Erlang per questo progetto perché potrebbe essere la soluzione migliore da quello che ho letto finora. La mia domanda è, se il cattivo regex matching lo rende un no-go per questo progetto e quanto in alto le spese operative (specialmente per la manutenzione) sarebbero per questo nella pratica. – Thomas