Je to blbý, ale i když máme univerzální kódování, nikde se nepoužívá. Mejly se pořád píší ASCII, plno konferencí ani jinak nefunguje. Proboha tak na co jsme si vymýšleli Unicode???
Unicode patří všude, kde je dnes čisté ASCII, pokud neexistuje nepřekonatelné technické omezení, které Unicode vylučuje. Takže pokládám za samozřejmé, že i pošta bude chodit standardně v Unicode. (Hint: když vyloučíte znaky s diakritikou a používat se bude UTF-8, tak to bude stejně vypadat a stejně dlouhé jako ASCII...)
No a k identifikátorům (e-mail adresám): souhlasím, je to technický identifikátor, na který mohou být uplatněna omezení. Ale klidně to mohou být omezení v rámci Unicode - tj. můj názor je "adresy jako dnes, ale zbytek bych prosil všechno v UTF-8, děkuji" :-)
Jasně, to by už neměl být problém :-)
Ostatně to je jenom jiný zápis. A UTF-8 má tu výhodu, že dokud se držíte při zemi, vypadá to stejně jako ASCII, takže tu změnu zkousnou i amíci.
UTF-16 je bastl, nebrat. Latinkove jazyky s tim vypadaji divne, a stejne je to delsi. Navic na UTF-16 potrebujete treba v C zvlastni funkce pro praci s retezci, protoze se tam casto vyskytuji nulove bajty. Zpetna kompatibilita veskera zadna, zjednoduseni (proti UTF-8) taky ne - furt tam mate stejne jako v UTF-8 promennou delku znaku, jen u UTF-16 jsou ty delky tusim 2 nebo 4 bajty, zatimco UTF-8 ma 1-4 bajty. Navic mate babylonske zmateni jazyku v podobe UTF-16BE versus UTF-16LE.
Od UTF-16 co nejdal pryc. Prinejhorsim mozna uvnitr operacniho systemu^W^WWindows, kde to maji autori nejak snad pod kontrolou, ale do sitovych protokolu to necpat.
Já myslím, že člověk, který nedokáže ani korektně vymazat kus textu, by se k těmhle věcem snad ani neměl vyjadřovat. Evidentně je příliš jednostranně zaujat i jen nějakým obskurním textovým editorem a nedokáže pochopit, že existuje široké pole alternativ. A to nejen v psaní textu ale dokonce i v operačních systémech.
Mno krome toho, ze na ulozeni diaktritiky potrebuje utf-8 2 byty, coz je celkem zbytecne, tak dnes kvuli tomu, aby mi dnes nekdo napsal maila s diakritikou, napise ho v html formatu a kvuli trem radkum textu je tam 30 radku html kodu, ktery me vubec nezajima. Unicode je pekny napad, ale dokud se plosne nenaridi, ze ho najednou zacnou pouzivat vsichni, jenom komplikuje zivot.
Nasazeni utf-8 do hlavicek e-mailu je naprosto zbytecne, jelikoz jmeno z adresou obvykle putuje a muze byt v libolnem jazyce a ten alias v podobe adresy za nim uz nutne nemusi byt v narodnim jazyce. Mam v prijmeni diakritiku, ale rozhodne mi nevadi, ze ji v mailove adrese nemam. Jak na ten prispevek koukam, silou zvyku je taky jenom v ASCII, no nic, snad příště :-)
UTF pouziva 2(a vice)byte proto, ze ten jeden by asi pro zobrazeni vsech narodnich znaku nestacil. Navic je zpetne kompatible s ASCII (coz se o ruznych narodnich rozsirenich typu kamenicti, win-1250, ... rict neda). Pokud napisete v utf8 asci znak, bude mit 1byte.
Neco plosne narizovat .... je totalne mimo. Rozhodne je dobre, ze se tim nekdo zabiva, protoze furt je lepsi mit blbej standard nez zadnej a 1000 ruznych narodnich reseni. Driv nebo pozdejs by si proste cinani rekli "ok, kaslem na tech 26 znaku, pro nasich 1 000 000 000 obyvatel to na maily zdaleka nestaci a navic je to amerikansky" a vytvorili by nejakou narodni upravu. Co na tom ze by se snima ostatni nedomluvili ? Spis by se ostatni prizpusobili a vytvarelo by se milion konverznich algoritmu.
A ano, jde tu i o to, ze "registratori", "isp" a podobna sber citi, ze by z toho mohlo neco kapnout. Jen si prestavte, ze si kazdy bude registrovat vsechny varianty domeny s i bez diakritiky, vytvaret forwardy mailu ve vsech moznych i nemoznych variantach.
"Navic je zpetne kompatible s ASCII (coz se o ruznych narodnich rozsirenich typu kamenicti, win-1250, ... rict neda). "
Nechci se plest, ale nejsou nahodou i v techto kodovanich zrovna ASCII znaky stejne? (Bavime se o standardu 7bit (95 tisknutelnych znaku, 33 ridicich), ktery je i v e-mailech, a ne o znacich 128-255).
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).