Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Unicode, UCS, UTF, BLA(H), TRU(C) ;)

[es] :: Art of Programming :: Unicode, UCS, UTF, BLA(H), TRU(C) ;)

[ Pregleda: 3042 | Odgovora: 2 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

-zombie-
Tomica Jovanovic
freelance programmer
ni.ac.yu

Član broj: 4128
Poruke: 3448
*.InfoSky.Net

Sajt: localhost


+5 Profil

icon Unicode, UCS, UTF, BLA(H), TRU(C) ;)29.04.2003. u 01:40 - pre 255 meseci
nije baš umetnost, ali mi se ovaj forum čini najprikladnijim za ovu temu..

elem, do skora sam baš prilično imao muka da svarim sve detalje oko Unicoda, UCS-a, UTF-a i ostalih opasnih stranih reči ;)

uglavnom, znao sam da Unicode uglavnom 16-bitni (osim kad nije ;), ali me bunilo to što je do danas registrovano skoro 100k karaktera.. i to je samo jedna od stvari koje mi nisu bile jasne.

no, posle prekjuče, kada sam pročitao jedan duži blog post (u formi kraćeg članka) čuvenog Tim-a Bray-a (xml, w3c, textuality, ...) sve mi se razbistrilo ;)


no, šalu na stranu, evo pa prosudite sami:

Citat:
Characters vs. Bytes

This is the first of a three-part essay on modern character string processing for computer programmers. Here I explain and illustrate the methods for storing Unicode characters in byte sequences in computers, and discuss their advantages and disadvantages. These methods have well-known names like UTF-8 and UTF-16 ...


http://tbray.org/ongoing/When/200x/2003/04/26/UTF


 
Odgovor na temu

tOwk
Danilo Šegan
Zemun/Beograd

Član broj: 94
Poruke: 2743
*.beograd-3.tehnicom.net

ICQ: 9344053
Sajt: alas.matf.bg.ac.yu/~mm011..


+2 Profil

icon Re: Unicode, UCS, UTF, BLA(H), TRU(C) ;)30.04.2003. u 12:10 - pre 255 meseci
O svemu tome se može vrlo precizno saznati na www.unicode.org a za praktičare su tu i dokumenti kao što je RFC 2279 (UTF-8 — Transformation of ISO 10646), i mnogi drugi.

Na Unicode.org stranici imate i veliki broj „tehničkih izveštaja“ (TR) koji opisuju konkretnu primenu Unikoda za određene stvari, a treba izdvojiti UCA (Unikod kolacioni algoritam, valjda TR10, mali deo implementacije sam pisao za onaj mysql-srpski dodatak), određivanje odnosa među znakovima (u kakvom su odnosu znaci Č i č, a u kakvom A i ćirilično A), postupak normalizacije (Ć prelazi u acute+C), itd.

Zapravo, sve je to vrlo jednostavno kada character označiš kao „znak“ (slova, cifre, i svi ostali znaci — znači ono što ima smisla za čoveka), a byte kao „bajt“.

Znači, moja preporuka je (ipak nezaobilazna) adresa: www.unicode.org

Možda se moje mišljenje promenilo, ali ne i činjenica da sam u pravu.
 
Odgovor na temu

tOwk
Danilo Šegan
Zemun/Beograd

Član broj: 94
Poruke: 2743
*.beograd-3.tehnicom.net

ICQ: 9344053
Sajt: alas.matf.bg.ac.yu/~mm011..


+2 Profil

icon Re: Unicode, UCS, UTF, BLA(H), TRU(C) ;)30.04.2003. u 12:11 - pre 255 meseci
Uh, zaboravih da dodam i vezu ka RFC 2781 (UTF-16), za one koji to vole.

A pošto smo u temi za programiranje, sve za UTF-16 je za nas implementirao IBM u jednoj biblioteci otvorenog koda: ICU.

Možda se moje mišljenje promenilo, ali ne i činjenica da sam u pravu.
 
Odgovor na temu

[es] :: Art of Programming :: Unicode, UCS, UTF, BLA(H), TRU(C) ;)

[ Pregleda: 3042 | Odgovora: 2 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.