UTF-8

UTF-8(8-bit Unicode Transformation Format) – viena kintamo ilgio simboliųkoduočių,kuria galima užrašyti bet kokįUnikodosimbolį bei lieka ir pilnas suderinamumas su 7 bitųASCIIkoduote, pritaikyta anglų kalbos abėcėlei.

UTF-8 dažnai naudojama internete, kur dėl istorinių suderinamumo priežasčių ar dėl taupumo ne visada galima pereiti prieUTF-16koduotės.

Techninės charakteristikos

UTF-8 yra Unikodo tipo koduotė, kurioje vienam simboliui skiriama nuo 1 baito iki 4 baitų.

Po1 baitąužima Angliškos abėcėlės simboliai, skaičiai, skyrybos ženklai. Taip koduojami 128 simboliai, kurių kodai priklausoASCIIkoduotei, Unikode užimančiai sritį nuo U+0000 iki U+007F.

Po2 baitusužima išplėstiniai lotyniški rašmenys (irlietuviškos raidės),graikų,armėnų,koptų,hebrajųirarabųabėcėlių beikirilicosraidės.

Po3 baitusužima raidės kitų rašto sistemų (japonų,kinų,kitų Azijos tautų).

Po4 baitusužimantys simboliai yra labai reti (juos irUTF-16koduoja ne dviem, o keturiais baitais).

5 baitųir6 baitųsimbolius numatė pradinė specifikacija, bet 2003 m. lapkričioRFC 3629dokumentas apribojo UTF-8 simbolius iki 4 baitų.

Kaip ir kitoms UTF koduotėms, apie baitų tvarką galima teksto dorojimo programą galima įspėti specialiabaitų tvarkos žyme,tačiau konkrečiu UTF-8, kur koduojamo teksto baitų tvarka visada vienoda, triženklė žymė naudojama tik informavimui apie pačios UTF-8 buvimą.

Kodavimo algoritmas

Simboliai, kurių Unikodo kodai mažesni už 128 (80 šešioliktainėje sistemoje) koduojami taip pat kaip ir atitinkami 7 bitųASCIIsimboliai. Tam išnaudojamos visos baito reikšmės, kurių vyriausias bitas lygus 0. Taip koduojami ne vien rodomieji simboliai, bet ir eilutės pabaiga (0D) bei kiti specialūs ženklai.

Kitais atvejai prireikia iki keturių baitų. Vyriausias šių baitų bitas visada lygus 1, taip juos atskiriant nuo anksčiau minėtų ASCII ženklų.

Kodo intervalas šešioliktainis	Reikšmė dvejetainis	UTF-16(big endianvariantas)	UTF-8 dvejetainis	Pastabos
000000–00007F	0xxxxxxx	00000000 0xxxxxxx	0xxxxxxx	Kaip ir ASCII. Vyriausias bitas lygus 0.
000000–00007F	0xxxxxxx	septyni x	septyni x	Kaip ir ASCII. Vyriausias bitas lygus 0.
000080–0007FF	00000zzz zxxxxxxx	00000zzz zxxxxxxx	110zzzzx 10xxxxxx	pirmas baitas prasideda 110, visi kiti prasideda 10. zzzz > 0000
000080–0007FF	00000zzz zxxxxxxx	trys x, aštuoni x	penki x, šeši x
000800–00FFFF	zzzzzxxx xxxxxxxx	zzzzzxxx xxxxxxxx	1110zzzz 10zxxxxx 10xxxxxx	pirmas baitas prasideda 1110, visi kiti prasideda 10. zzzzz > 00000
000800–00FFFF	zzzzzxxx xxxxxxxx	aštuoni x, aštuoni x	keturi x, šeši x, šeši x
010000–10FFFF	000zzzzz xxxxxxxx xxxxxxxx	110110yy yyxxxxxx 110111xx xxxxxxxx	11110zzz 10zzxxxx 10xxxxxx 10xxxxxx	UTF-16 „pakeičianti pora “, yyyy = zzzzz – 1, zzzzz > 00000. Šiuo atveju UTF-8 bitų reikšmės lygiai tokios pat kaip ir Unicode.
010000–10FFFF	000zzzzz xxxxxxxx xxxxxxxx	du x, aštuoni x, du x, aštuoni x	trys x, šeši x, šeši x, šeši x

Pavyzdžiai

Raidėaleph(א), Unicode kodas U+05D0, koduojamas UTF-8 tokiu būdu:

Jis priklauso intervalui nuo U+0080 iki U+07FF. Iš lentelės matyti, jog toks simbolis turi būti koduojamas dviem baitais,110xxxxx ir10xxxxxx.
šešioliktainisskaičius 05D0dvejetaine sistemaužrašomas kaip 101 1101 0000.
Šie vienuolika bitų užima x pažymėtas pozicijas: 1101011110010000.
Galutinis rezultatas yra du baitai, D7 ir 90 (abu užrašyti šešioliktaine sistema). Tai ir yraalefraidės UTF-8 kodas.

Kiti pavyzdžiai:

Pavyzdys	Unikodas	Unikodinis dvejetainis	UTF-8 dvejetainis	UTF-8 šešioliktainis
Raidėy	U+0079	00000000 01111001	01111001	79
Vokiška raidėä	U+00E4	00000000 11100100	1100001110100100	C3 A4
Ženklasregistered-trademark®	U+00AE	00000000 10101110	1100001010101110	C2 AE
Euroženklas€	U+20AC	00100000 10101100	111000101000001010101100	E2 82 AC

Koduotės UTF-8 privalumai

Lotyniškos (anglų kalbos) raidės bei pagrindiniai skyrybos ženklai vienu baitu koduojami taip pat, kaip irASCIIbei daugeliu paplitusių senesnių koduočių. Todėl tokie rašmenys teisingai atvaizduojami senesnių programų, kurios nenumato Unikodo panaudojimo.
Jei didžioji dalis simbolių koduojami vienu baitu, UTF-8 koduote saugomas tekstas užima žymiai mažiau vietos, neiUTF-16(USC-2) koduote.
Šiai koduotei įmanoma pritaikytiblogo simbolio taisyklėspaieškos algoritmą.
Bent kiek ilgesnę UTF-8 eilutę nesunku atpažinti. Kitaip tariant, tikimybė, jog teisingai UTF-8 koduotės požiūriu atrodanti baitų seka iš tiesų slepia kaip nors kitaip koduotą tekstą yra menka. Pavyzdžiui, baitai C0, C1, ir nuo F5 iki FF UTF-8 dokumente niekada nesutinkami.
Nors simbolių ribos nėra visiškai akivaizdžios, palyginus su kitomis koduotėmis jos randamos gana lengvai.
Baitų seka, koduojanti vieną simbolį, niekada nėra sekos, koduojančios kokį nors kitą simbolį, dalis. Pavyzdžiui, minėtiemsASCIIrašmenims koduoti skirti baitai ir koduoja vien tik ASCII rašmenis.
Iš pirmojo simbolio baito akivaizdu, kiek baitų yra skirta simboliui koduoti.
Kodavimas nereikalauja palyginus lėtų daugybos ar dalybos operacijų (anksčiau naudotamUTF-1jos buvo reikalingos).

Koduotės UTF-8 trūkumai

Jei teksto didžiąją dalį sudaro Azijos kalbų rašmenys UTF-8 koduotas tekstas užims daugiau vietos.
Teksto eilutei skiriamas baitų skaičius priklauso ne tik nuo ženklų skaičiaus, bet ir nuo turinio, tai yra nuo to, kiek baitų skiriama rašmenims koduoti. Dėl to pagalbaitųskaičių neįmanoma nustatyti eilutės ilgio, o senosios programos, kurios eilutės ilgį nustato pagalbaitųskaičių, klaidingai atvaizduoja tekstą (pvz., „sugriūva “tekstinės lentelės).
Koduotė reikalauja perduoti visus aštuonis baito bitus. Alternatyvi koduotėUTF-7reikalauja perduoti tik pirmus septynis bitus, kurių pakako ir ASCII. Kai kuri duomenų perdavimo įranga aštuntą bitą naudoja savo specialiems tikslams ir UTF-8 užkoduoto teksto tiesiogiai perduoti negali.

Nuorodos

Lietuviški šaltiniai:

Prof. Gintauto Grigo rekomendacijos
Ričardo Čepo svetainė apie Unicode Archyvuota kopija2006-01-11 išWayback Machineprojekto.

Anglų kalba:

RFC 3629,UTF-8 standarto aprašymas
RFC 2277,IETF politika dėl koduočių ir kalbų
UTF-8
Rob Pike tells the story of UTF-8's creation
Original UTF-8 paper Archyvuota kopija2005-05-05 išWayback Machineprojekto.
Free online Lithuanian charset converter