2013-03-28 1 views
42

Sto tentando di creare una copia "normalizzata" di una stringa, per ridurre i nomi duplicati in un database. I nomi contengono molti caratteri internazionali (ad esempio lettere accentate) e voglio creare una copia con gli accenti rimossi.Metodo rubino per rimuovere gli accenti dai caratteri internazionali UTF-8

Ho trovato il metodo di seguito, ma non riesco a farlo funzionare. Non riesco a trovare quello che è il plug-in Unicode Hacks.

# Utility method that retursn an ASCIIfied, downcased, and sanitized string. 
    # It relies on the Unicode Hacks plugin by means of String#chars. We assume 
    # $KCODE is 'u' in environment.rb. By now we support a wide range of latin 
    # accented letters, based on the Unicode Character Palette bundled inMacs. 
    def self.normalize(str) 
    n = str.chars.downcase.strip.to_s 
    n.gsub!(/[à áâãäåÄÄ?]/u, 'a') 
    n.gsub!(/æ/u,     'ae') 
    n.gsub!(/[ÄÄ?]/u,    'd') 
    n.gsub!(/[çÄ?ÄÄ?Ä?]/u,   'c') 
    n.gsub!(/[èéêëÄ?Ä?Ä?Ä?Ä?]/u, 'e') 
    n.gsub!(/Æ?/u,     'f') 
    n.gsub!(/[ÄÄ?Ä¡Ä£]/u,   'g') 
    n.gsub!(/[ĥħ]/,    'h') 
    n.gsub!(/[ììíîïīĩĭ]/u,  'i') 
    n.gsub!(/[įıijĵ]/u,   'j') 
    n.gsub!(/[ķĸ]/u,    'k') 
    n.gsub!(/[Å?ľĺļÅ?]/u,   'l') 
    n.gsub!(/[ñÅ?Å?Å?Å?Å?]/u,  'n') 
    n.gsub!(/[òóôõöøÅÅ?ÅÅ]/u, 'o') 
    n.gsub!(/Å?/u,     'oe') 
    n.gsub!(/Ä?/u,     'q') 
    n.gsub!(/[Å?Å?Å?]/u,    'r') 
    n.gsub!(/[Å?Å¡Å?ÅÈ?]/u,   's') 
    n.gsub!(/[ťţŧÈ?]/u,   't') 
    n.gsub!(/[ùúûüūůűŭũų]/u,'u') 
    n.gsub!(/ŵ/u,     'w') 
    n.gsub!(/[ýÿŷ]/u,    'y') 
    n.gsub!(/[žżź]/u,    'z') 
    n.gsub!(/\s+/,     ' ') 
    n.gsub!(/[^\sa-z0-9_-]/,   '') 
    n 
    end 

Devo 'richiedere' una particolare libreria/gemma? O forse qualcuno potrebbe raccomandare un altro modo per farlo.

Non sto utilizzando Rails, né ho intenzione di farlo.

+1

Quale versione rubino stai usando? – Huluk

+0

Dai uno sguardo a http://stackoverflow.com/questions/1268289/how-to-get-rid-of-non-ascii-characters-in-ruby – MurifoX

+3

puoi anche consultare: https://github.com/norman/unidecoder –

risposta

148

Io generalmente uso I18n per gestire questa situazione:

1.9.3p392 :001 > require "i18n" 
=> true 
1.9.3p392 :002 > I18n.transliterate("Hé les mecs!") 
=> "He les mecs!" 
+3

[La documentazione] (http://api.rubyonrails.org/classes/ActiveSupport/Inflector.html#method -i-traslitterare). Essere in grado di impostare le traslitterazioni su base per locale è anche molto potente. –

+0

Questo sembra essere quello che sto cercando. Grazie. –

+2

Proprio sotto il mio naso. Grazie mille! – Trip

8

Finora il seguente è l'unico modo sono stato in grado di realizzare quello che mi serve:

str.tr(
"ÀÁÂÃÄÅàáâãäåĀāĂ㥹ÇçĆćĈĉĊċČčÐðĎďĐđÈÉÊËèéêëĒēĔĕĖėĘęĚěĜĝĞğĠġĢģĤĥĦħÌÍÎÏìíîïĨĩĪīĬĭĮįİıĴĵĶķĸĹĺĻļĽľĿŀŁłÑñŃńŅņŇňʼnŊŋÒÓÔÕÖØòóôõöøŌōŎŏŐőŔŕŖŗŘřŚśŜŝŞşŠšſŢţŤťŦŧÙÚÛÜùúûüŨũŪūŬŭŮůŰűŲųŴŵÝýÿŶŷŸŹźŻżŽž", 
"AAAAAAaaaaaaAaAaAaCcCcCcCcCcDdDdDdEEEEeeeeEeEeEeEeEeGgGgGgGgHhHhIIIIiiiiIiIiIiIiIiJjKkkLlLlLlLlLlNnNnNnNnnNnOOOOOOooooooOoOoOoRrRrRrSsSsSsSssTtTtTtUUUUuuuuUuUuUuUuUuUuWwYyyYyYZzZzZz") 

Ma usando questo si sente molto 'hacker', e mi piacerebbe trovare un modo migliore.

+1

Funziona solo per ISO-8859-1. Cosa ti fa pensare che funzioni per UTF-8? – pts

+0

Questo funziona per UTF-8 e Ruby 2.2.3 e fa esattamente ciò di cui avevo bisogno. Manca però qualche personaggio rumeno. Li ho ADED: 'string.tr ( "ÀÁÂÃÄÅàáâãäåĀāĂ㥹ÇçĆćĈĉĊċČčÐðĎďĐđÈÉÊËèéêëĒēĔĕĖėĘęĚěĜĝĞğĠġĢģĤĥĦħÌÍÎÏìíîïĨĩĪīĬĭĮįİıĴĵĶķĸĹĺĻļĽľĿŀŁłÑñŃńŅņŇňʼnŊŋÒÓÔÕÖØòóôõöøŌōŎŏŐőŔŕŖŗŘřŚśŜŝŞşŠšŞşsŢţŤťŦŧŢţÙÚÛÜùúûüŨũŪūŬŭŮůŰűŲųŴŵÝýÿŶŷŸŹźŻżŽž", "AAAAAAaaaaaaAaAaAaCcCcCcCcCcDdDdDdEEEEeeeeEeEeEeEeEeGgGgGgGgHhHhIIIIiiiiIiIiIiIiIiJjKkkLlLlLlLlLlNnNnNnNnnNnOOOOOOooooooOoOoOoRrRrRrSsSsSsSsSssTtTtTtTtUUUUuuuuUuUuUuUuUuUuWwYyyYyYZzZzZz")' – Alexander