Desidero aggiungere ancora alcune parole a stop_words in TfidfVectorizer. Ho seguito la soluzione in Adding words to scikit-learn's CountVectorizer's stop list. La mia lista delle parole d'arresto contiene ora sia le parole d'arresto 'inglese' che le parole di arresto che ho specificato. Ma ancora TfidfVectorizer non accetta la mia lista di termini di stop e posso ancora vedere quelle parole nella mia lista di funzionalità. Qui di seguito è il mio codiceaggiunta di parole all'elenco di stop_words in TfidfVectorizer in sklearn
from sklearn.feature_extraction import text
my_stop_words = text.ENGLISH_STOP_WORDS.union(my_words)
vectorizer = TfidfVectorizer(analyzer=u'word',max_df=0.95,lowercase=True,stop_words=set(my_stop_words),max_features=15000)
X= vectorizer.fit_transform(text)
Ho anche cercato di impostare stop_words in TfidfVectorizer come stop_words = my_stop_words. Ma ancora non funziona. Per favore aiuto.
Ho usato il tuo codice e ho eseguito come [qui] (https://gist.github.com/anonymous/043a0099b4c388d0686d). Ho ottenuto il risultato atteso. Puoi fornire maggiori dettagli? –
Sto classificando i tweet che contengono URL. Ora le mie funzionalità che estraggo usando SelectKBest contengono quegli URL in pezzi. Quindi ho pensato di aggiungere quegli URL nel mio elenco di parole di arresto in modo che venga rimosso dal mio set di funzionalità. Ho aggiunto quegli URL come mostrato sopra. – ac11
Ecco come il mio elenco di parole fermata assomiglia: frozenset ([ '', 'wA4qNj2o0b', 'all', 'fai5w3nBgo', 'Ikq7p9ElUW', '9W6GbM0MjL', 'quattro', 'WkOI43bsVj', 'x88VDFBzkO' , "cui", "YqoLBzajjo", "NVXydiHKSC", "HdjXav51vI", "q0YoiC0QCD", "a", "cTIYpRLarr", "nABIG7dAlr", "sotto", "6JF33FZIYU", "molto", "AVFWjAWsbF"]) – ac11