Sto usando nltk's PunkSentenceTokenizer
per tokenizzare un testo in un insieme di frasi. Tuttavia, il tokenizer non sembra considerare un nuovo paragrafo o nuove righe come una nuova frase.tokenizer frase nltk, considera nuove righe come limite frase
>>> from nltk.tokenize.punkt import PunktSentenceTokenizer
>>> tokenizer = PunktSentenceTokenizer()
>>> tokenizer.tokenize('Sentence 1 \n Sentence 2. Sentence 3.')
['Sentence 1 \n Sentence 2.', 'Sentence 3.']
>>> tokenizer.span_tokenize('Sentence 1 \n Sentence 2. Sentence 3.')
[(0, 24), (25, 36)]
Mi piacerebbe considerare anche le nuove linee come limiti di frasi. Ad ogni modo per fare questo (ho bisogno di salvare anche gli offset)?
Nizza soluzione. Ma questo non funzionerà per il mio caso, dal momento che voglio anche salvare gli scostamenti dei punti di divisione per il testo originale con tokenizer.span_tokenize(). – CentAu
Anche se penso di poter sostituire le newline con punti. Probabilmente funzionerebbe. – CentAu