Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia Tuesday TopDrive KupDnes Navrcholu Bomba NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Vlákno názorů k článku
Život s krvelačným X

Michal Kubeček
Michal Kubeček (neregistrovaný)
6. 3. 2007 19:46

BOM a UTF-8

Mohl by mi už konečně sdělit jeden jediný důvod, proč cpát BOM do UTF-8 dokumentu? Já o žádném nevím, dokonce jsem toho názoru, že je zásadní chybou tam BOM dát, ale kdykoli jsem se někoho, kdo použití BOM v UTF-8 považoval za správné, zeptal na důvod, nedočkal jsem se odpovědi. Třeba tentokrát budu úspěšnější…
Jirka Kosek
Jirka Kosek (neregistrovaný)
6. 3. 2007 20:17

Re: BOM a UTF-8

Důvod pro to není, ale třeba aplikace od Microsoftu ho tam vkládají a používají ho pro automatickou detekci toho, zda je soubor uložený v UTF-8 nebo v nějakém windows-125x kódování.
Bredy
Bredy (neregistrovaný)
8. 3. 2007 2:29

Re: BOM a UTF-8

Proboha a proč ty aplikace používáte?
...
... (neregistrovaný)
6. 3. 2007 20:20

Re: BOM a UTF-8

Může to usnadnit určení toho, že je v dokumentu použito UTF-8 kódování, a ne nějaké jiné.
Michal Kubeček
Michal Kubeček (neregistrovaný)
7. 3. 2007 21:15

Re: BOM a UTF-8

To bych označil za hodně slabý důvod pro to, aby se do textového souboru přidával znak, který tam nemá co dělat a který odporuje syntaxi…
Dan Ohnesorg aura:96
8. 3. 2007 13:20

Re: BOM a UTF-8

BOM prece syntaxi neodporuje, navic mam pocit, ze zakladni duvod jeho zavedeni byla interoperabilita, aby bylo mozne urcit endianitu systemu, ktery soubor vygeneroval a spravne ho zpracovat. To predchozi normy neresily.
Michal Kubeček
Michal Kubeček (neregistrovaný)
8. 3. 2007 13:50

Re: BOM a UTF-8

BOM se začal používat proto, aby bylo možné rozlišit UTF-16LE od UTF-16BE, takže je-li první znak souboru BOM (tedy nedělitelná mezera nulové délky nebo co to bylo původně), lze ho označit za UTF-16 a ten, kdo ho načítá, hned ví, zda je zbytek souboru little endian nebo big endian UTF-16. Před dalším zpracováním by ale měl tento znak vynechat, takže veškerá práce už by měla probíhat bez něj. UTF-8 je ale na endianitě nezávislé, takže neexistuje žádné UTF-8LE a UTF-8BE, ale jen jedno jediné UTF-8, a proto je nesmysl při ukládání v UTF-8 přidávat nějakou značku navíc.
Zasílat nově přidané příspěvky e-mailem