2011-11-18 11 views
6

Sto facendo un progetto in classifica di notizie. Fondamentalmente il sistema classificherà gli articoli di notizie in base all'argomento predefinito (ad esempio sport, politica, internazionale). Per costruire il sistema, ho bisogno di set di dati gratuiti per addestrare il sistema.News Data Set di articoli

Finora, dopo poche ore su google e collegamenti da here, l'unico set di dati adatto che ho trovato è this. Mentre questo si spera abbastanza, penso che cercherò di trovare di più.

Si noti che i set di dati che voglio:

  1. Contiene articoli di notizie complete, non solo titolo
  2. è in inglese
  3. In formato .txt, non XML o db

Qualcuno può aiutarmi?

risposta

0

È possibile crearlo, è possibile scrivere uno script Python/Perl/PHP in cui si esegue una ricerca, quindi quando si trovano le risposte è possibile isolare gli attributi con espressioni regolari ... Penso che sia l'opzione migliore. Non è facile ma dovrebbe essere divertente, finalmente puoi condividere questo set di dati con noi.

+1

Sì, sto cercando di trovare il set di dati perché sarò occupato con il progetto, quindi cerco di ridurre le cose da fare. Inoltre, non so come scrivere uno script in Python/Perl/PHP. – Hearty

1

Hai provato a utilizzare Reuters21578? È il set di dati più comune per la classificazione del testo. È formato in SGML, ma è abbastanza semplice da analizzare e trasformare in un formato txt.