2015-05-30 14 views
10

Sto provando a tabulare occorrenze di telefoni (caratteri) in una stringa, ma i diacritici sono tabulati come caratteri per conto proprio. Idealmente, ho una lista di parole in Alfabeto fonetico internazionale, con una buona dose di segni diacritici e diverse combinazioni di essi con caratteri di base. Dò qui un MWE con una sola parola, ma lo stesso vale per la lista di parole e più tipi di combinazioni.Tabulazione di caratteri con segni diacritici in R

> word <- "n̥ana" # word constituted by 4 phones: [n̥],[a],[n],[a] 
> table(strsplit(word, "")) 
̥ a n 
1 2 2 

Ma il risultato voluto è:

a n n̥ 
2 1 1 

Come posso riuscire a ottenere questo tipo di risultato?

risposta

7

Prova

library(stringi) 
table(stri_split_boundaries(word, type='character')) 
#a n n̥ 
#2 1 1 

O

table(strsplit(word, '(?<=\\P{Ll}|\\w)(?=\\w)', perl=TRUE)) 
#a n n̥ 
#2 1 1