Ho N parole chiave diverse che sto monitorando (per semplicità, sia N = 3). Quindi in GET stati/filtro, darò 3 parole chiave nell'argomento "traccia".filtraggio dei tweet ricevuti dagli stati/filtro (API di streaming)
Ora i tweets che riceverò possono provenire da QUALUNQUE delle 3 parole chiave che ho menzionato. Il problema è che voglio decidere in merito a quale tweet corrisponde a quale parola chiave. ovvero mappatura tra i tweet e le parole chiave (che sono menzionate nell'argomento "traccia").
Apparentemente, non c'è modo di farlo senza eseguire alcuna elaborazione sui tweet ricevuti.
Quindi mi chiedevo qual è il modo migliore per eseguire questa elaborazione? Cerca parole chiave nel testo del tweet? Per quanto riguarda case-insensitive? Che dire quando più parole ci sono nella stessa parola chiave, ad esempio: "Katrina Kaif"?
Attualmente sto provando a formulare qualche espressione regolare ...
Stavo pensando il modo migliore sarebbe di usare la stessa logica (espressioni regolari, ecc), come viene utilizzato in origine essere stati/filtro API. Come sapere quale logica viene utilizzata dagli stati dell'API di Twitter/filtrare se stessa per far corrispondere i tweet alle parole chiave?
Consigli? Aiuto?
PS: Sto usando Python, Tweepy, Regex, MongoDb/Apache S4 (per il calcolo distribuito)
Per un'espressione regolare N di dimensioni maggiori potrebbe essere piuttosto doloroso. Il modo più semplice sarebbe quello di trasformare il testo in minuscolo e per ogni parola chiave controllare il tweet per la sua esistenza. Se si desidera verificare la corrispondenza esatta, è possibile sincronizzare i tweet e ottenere l'intersezione tra il set di parole chiave e il set di token. L'intersezione saranno le parole chiave che corrispondono al tweet. – cubbuk
@cubbuk: Attualmente ho N = 100. È preferibile cercare la parola chiave solo nella parte "testo" di tweet, giusto? – user1599964
Sì, per quanto ne so, Twitter corrisponde solo alla parte del testo del tweet, quindi è più adatto per te controllare la parte del testo. – cubbuk