Sto usando il Lemmatizer di WordNet NLTK per un progetto di tagging di parte del discorso, modificando prima ogni parola nel corpus di addestramento sul suo gambo (modifica sul posto) e quindi l'allenamento solo sul nuovo corpus. Tuttavia, ho trovato che il lemmatizer non funziona come mi aspettavo.NLTK Lemmatizzatore WordNet: non dovrebbe lemmatizzare tutte le inflessioni di una parola?
Ad esempio, la parola loves
è lemmatizzato a love
che è corretto, ma la parola loving
rimane anche dopo loving
lemmatizzazione. Qui loving
è come nella frase "Lo sto amando".
Non è love
lo stelo della parola flessa loving
? Allo stesso modo, molte altre forme di "ing" rimangono come sono dopo la lemmatizzazione. È questo il comportamento corretto?
Quali sono alcuni altri lemmatizzatori che sono precisi? (Non è necessario essere in NLTK) Ci sono analizzatori morfologici o lemmatizzatori che tengono conto anche del tag Part of Speech di una parola, nel decidere la parola stem? Ad esempio, la parola killing
dovrebbe avere kill
come la radice se killing
viene utilizzato come un verbo, ma dovrebbe avere killing
come la radice se viene utilizzato come un nome (come in the killing was done by xyz
).
Grazie per la risposta! Puoi anche dire, quali sono tutti i tag che prende? n-sostantivi, v = verbi ...? –