2009-08-03 7 views
7

Sto lavorando a un progetto di laurea per uno dei miei corsi universitari, e ho bisogno di trovare un posto dove gestire diversi crawler che ho scritto in C# da. Senza esperienza di web hosting, sono un po 'perso. È qualcosa che qualsiasi sito consente? Ho bisogno di un host speciale che dia più accesso al server? Il crawler è una semplice app che fa il suo lavoro, quindi scrive periodicamente informazioni su un database remoto.Quale tipo di host Web consente di eseguire crawler su di esso?

+1

Non è possibile eseguirlo sul desktop/laptop o sul server dell'università? –

risposta

6

Un crawler Web è una simulazione di un utente normale. Accede siti come i browser, ottenendo il codice html (javascript, ecc.) Restituito dal server (quindi nessun accesso interno al codice del server). In questo modo, qualsiasi sito può essere sottoposto a scansione.

Attenzione: alcuni web crawler ethics guidelines. Ci sono pagine che non devi indicizzare o seguire i suoi collegamenti. E gli sviluppatori web creano alcuni file e istruzioni per i web crawler, dicendo cosa puoi indicizzare o seguire.

0

È necessario un VPS (server privato virtuale) o un server dedicato completo. I crawler non sono altro che applicazioni che "strisciano" su Internet. Sebbene sia possibile configurare un sito Web come crawler, non è pratico poiché è necessario accedere alla pagina Web affinché il crawler funzioni. Dovrai leggere il ToS (Termini di servizio) per l'host per vedere quali sono i termini per l'utilizzo. Alcuni host con prezzi più bassi interromperanno la connessione con un motivo di "impatto negativo sulla rete" se si tenta di utilizzare molta larghezza di banda anche se ti hanno dato molto da usare.

I VPS sono circa $ 30-80 per un server Linux e $ 60 + per un server Windows. I servizi dedicati eseguono $ 100 + per entrambi i server Linux e Windows.

0

Non hai bisogno di alcun web hosting per eseguire il tuo spider. Basta chiedere un PC con connessione Web che possa fungere da server dedicato, configurare il database ed eseguire il crawler da lì.

1

Questo non sembra avere nulla a che fare con l'hosting web. Hai solo bisogno di una macchina con una connessione internet e un server di database.

Vorrei controllare con la tua università se fossi in te. Almeno ai miei tempi, molto era possibile organizzare in casa quando si trattava di progetti di laurea.

In caso contrario, è possibile esaminare un semplice account VPS (Virtual Private Server). A meno che tu non sia sicuro che la tua app funzioni sotto Mono, avrai bisogno di una Windows. I limiti di risorse sono in genere molto inferiori rispetto a quelli ottenuti da un server dedicato, ma sono relativamente convenienti. Alcuni offriranno un database MS SQL Server che è possibile utilizzare accanto all'account VPS (su un'altra macchina). Installare SQL Server sul VPS stesso può essere un problema di licenza.

Assicurati di controllare i termini di utilizzo prima di aprire un account, così come le specifiche di sistema (virtuali) però. Controlla anche se c'è qualche tipo di periodo minimo di contratto. A volte questo può essere più lungo di un mese, specialmente se non ci sono costi di installazione.

Se possibile, trova un host geograficamente vicino a te. Un server dall'altra parte del mondo può diventare un po 'noioso accedere da remoto usando Remote Desktop.

1

Se non è possibile eseguirlo dal desktop per qualche motivo, è necessario un host che consente di eseguire codice C# arbitrario. I server web più economici non lo fanno a causa delle potenziali implicazioni sulla sicurezza, dal momento che ci saranno molte altre persone in esecuzione sullo stesso server.

Ciò significa che è necessario essere su un server in cui si dispone del proprio sistema operativo.O un VPS - Virtual Private Server, dove la virtualizzazione viene utilizzata per fornirti il ​​tuo sistema operativo ma condividere l'hardware - o il tuo server dedicato, dove hai sia l'hardware che il software.

Si noti che se si esegue su un server che è condiviso in alcun modo, è necessario assicurarsi di limitare se stessi in modo da non causare problemi ai vostri vicini; il tuo problema principale non sarà usare troppa CPU o larghezza di banda. Questo non è solo per cortesia: la maggior parte degli host web sospende il tuo hosting se stai causando problemi sulla rete, ad esempio negando agli altri utenti dell'hardware che stai utilizzando risorse consumandole tutte da te. Di solito puoi scoppiare livelli di utilizzo più elevati, ma ti interromperanno se li sostieni per un periodo di tempo significativo.

1

80legs consente di utilizzare i propri crawler per elaborare milioni di pagine Web con il proprio programma.

Le tariffe sono:

  • $ 2,00 per milione di pagine
  • 0,03 dollari per CPU ore

Essi sostengono di strisciare 2 miliardi di pagine web al giorno.