Dopo aver studiato un po 'come il modo in cui le persone slugify i titoli, ho notato che spesso manca come affrontare i titoli di inglese.regole per slug e unicode
la codifica dell'URL è molto restrittiva. Vedere http://www.blooberry.com/indexdot/html/topics/urlencoding.htm
Così, per esempio come fanno le persone affrontano per lumache titolo per cose come
"una lagrima cayó en l'arena"
Uno può venire con un tavolo ragionevole per Indo lingue europee, vale a dire. cose che possono essere codificate tramite ISO-8859-1. Ad esempio, una tabella di conversione si tradurrebbe 'A' => 'a', quindi il proiettile sarebbe
"una-lagrima-Cayo-en-la-arena"
Tuttavia, sto usando unicode (in particolare usando la codifica UTF-8), quindi non ci sono garanzie su quali codici di codice otterrò (devo prepararmi per cose che non possono essere codificate ISO-8859-1
I a nushell Come gestirlo? Devo trovare una tabella di conversione per i caratteri nell'intervallo ISO_8859-1 (< 255) e lasciare tutto il resto?
MODIFICA: Per dare un po 'più di contesto, a priori, non mi aspetto di inserire i dati nelle lingue europee non indo, ma mi piacerebbe avere un piano se trovo tali dati. Una tabella di conversione per ASCII estesa sarebbe carina. Qualche indicazione?
Inoltre, dal momento che la gente si chiede, sto usando python, in esecuzione su Google App Engine
A proposito, c'è una buona ragione per cui Unicode non è consentito negli URL? – Zifre