5

Ho intenzione di scrivere uno strumento per il rilevamento degli argomenti su Twitter. Ho pensato a una buona misura di similarità (a distanza) tra due tweet, e come rappresentarli, prendendo nella conta:Rappresentazione e una buona misura di somiglianza tra i tweet per il rilevamento degli argomenti

  • Il #hashtags (credo hashtags sono molto importanti quando rileva argomenti su Twitter)
  • le risposte (se qualcuno risponde ad un Tweet, questi tweets potrebbe essere parlando della stessa tema, anche se due persone potrebbero iniziare a parlare di Samsung Galaxy e finiscono a parlare di iphone jailbreaking, ecc.)

Sto pensando di implementare quello che ho finora e fare alcuni esperimenti. Io implementare i modelli classici (come TF*IDF e utilizzare la distanza euclidea , angolo di coseno, etc.), ed i modelli booleani con alcune misure di similarità (Hamming, Jaccard, etc.).

Qualche idea su come adattare un modello esistente a Twitter o qualche idea su come crearne uno nuovo?

risposta

5

Similarity Metrics on Twitter discute alcuni dettagli sulle diverse misure di similarità che è possibile utilizzare per raggruppare i dati da Twitter insieme. Abbiamo fatto alcune ricerche sugli utenti di cluster su twitter in base alle connessioni degli utenti, alle menzioni degli utenti, alla geo-localizzazione, alla somiglianza dei contenuti tra tweet, alla somiglianza dei contenuti tra le descrizioni degli utenti e agli #hashtags comuni.

Per trovare argomenti comuni su Twitter, trovare collegamenti tra gli utenti che parlano degli argomenti è di grande aiuto e abbiamo scoperto che il gruppo di utenti tende a discutere un argomento comune. Vi sono alcuni dettagli a riguardo nella seconda metà di this post.

+0

Grazie per la risposta. Daremo un'occhiata a quegli articoli ora :) –

+0

Ciao Pulkit, hai un articolo che descrive un lavoro che hai fatto riguardo a questo che posso leggere? – KillBill