Poiché utf8 di MySQL non supporta caratteri a 4 byte, sto cercando un modo per rilevare ed eliminare qualsiasi carattere utf8 da 4 byte di una stringa in Ruby. Capisco che posso aggiornare il mio tavolo per utilizzare utf8m4 ma per un paio di motivi che non è possibile o la soluzione desiderata.Come rimuovere 4 byte utf-8 caratteri in Ruby?
Semplicemente la codifica della stringa in ASCII rimuoverà questi caratteri ma rimuoverà anche tutti gli altri caratteri non ASCII, il che non è buono.
Grazie! Sembra ovvio ora che lo hai suggerito. Ero così profondamente a pensare alle codifiche, non pensavo di guardare semplicemente il conteggio dei byte di ogni personaggio. – JZC
Come è la performance di questo con una stringa lunga? Più di 5000 caratteri? –
grazie grazie grazie ... non personalmente preoccupato per le prestazioni, per il momento sono felice di avere una soluzione funzionante – steve