Ho intenzione di scrivere uno strumento per il rilevamento degli argomenti su Twitter. Ho pensato a una buona misura di similarità (a distanza) tra due tweet, e come rappresentarli, prendendo nella conta:Rappresentazione e una buona misura di somiglianza tra i tweet per il rilevamento degli argomenti
- Il
#hashtags
(credo hashtags sono molto importanti quando rileva argomenti su Twitter) - le risposte (se qualcuno risponde ad un Tweet, questi tweets potrebbe essere parlando della stessa tema, anche se due persone potrebbero iniziare a parlare di Samsung Galaxy e finiscono a parlare di iphone jailbreaking, ecc.)
Sto pensando di implementare quello che ho finora e fare alcuni esperimenti. Io implementare i modelli classici (come TF*IDF
e utilizzare la distanza euclidea , angolo di coseno, etc.), ed i modelli booleani con alcune misure di similarità (Hamming, Jaccard, etc.).
Qualche idea su come adattare un modello esistente a Twitter o qualche idea su come crearne uno nuovo?
Grazie per la risposta. Daremo un'occhiata a quegli articoli ora :) –
Ciao Pulkit, hai un articolo che descrive un lavoro che hai fatto riguardo a questo che posso leggere? – KillBill