Ho recentemente iniziato a utilizzare il modulo nltk per l'analisi del testo. Sono bloccato in un punto. Voglio usare word_tokenize su un dataframe, in modo da ottenere tutte le parole usate in una particolare riga del dataframe.come utilizzare word_tokenize nel frame di dati
data example:
text
1. This is a very good site. I will recommend it to others.
2. Can you please give me a call at 9983938428. have issues with the listings.
3. good work! keep it up
4. not a very helpful site in finding home decor.
expected output:
1. 'This','is','a','very','good','site','.','I','will','recommend','it','to','others','.'
2. 'Can','you','please','give','me','a','call','at','9983938428','.','have','issues','with','the','listings'
3. 'good','work','!','keep','it','up'
4. 'not','a','very','helpful','site','in','finding','home','decor'
Fondamentalmente, voglio separare tutte le parole e trovare la lunghezza di ogni testo nel dataframe.
So che word_tokenize può essere utilizzato per una stringa, ma come applicarlo all'intero dataframe?
Si prega di aiuto!
Grazie in anticipo ...
La descrizione del problema è priva di input di dati, codice, output desiderato. Grazie – EdChum
@EdChum: hai modificato la query. Spero che abbia le informazioni richieste. – eclairs