Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Unicode, UCS, UTF, BLA(H), TRU(C) ;)

[es] :: Art of Programming :: Unicode, UCS, UTF, BLA(H), TRU(C) ;)

[ Pregleda: 1350 | Odgovora: 2 ]

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

-zombie-
Tomica Jovanovic
freelance programmer
ni.ac.yu

Član broj: 4128
Poruke: 3448
*.InfoSky.Net

Sajt: localhost


Profil

icon Unicode, UCS, UTF, BLA(H), TRU(C) ;)29.04.2003. u 01:40

nije baš umetnost, ali mi se ovaj forum čini najprikladnijim za ovu temu..

elem, do skora sam baš prilično imao muka da svarim sve detalje oko Unicoda, UCS-a, UTF-a i ostalih opasnih stranih reči ;)

uglavnom, znao sam da Unicode uglavnom 16-bitni (osim kad nije ;), ali me bunilo to što je do danas registrovano skoro 100k karaktera.. i to je samo jedna od stvari koje mi nisu bile jasne.

no, posle prekjuče, kada sam pročitao jedan duži blog post (u formi kraćeg članka) čuvenog Tim-a Bray-a (xml, w3c, textuality, ...) sve mi se razbistrilo ;)


no, šalu na stranu, evo pa prosudite sami:

Citat:
Characters vs. Bytes

This is the first of a three-part essay on modern character string processing for computer programmers. Here I explain and illustrate the methods for storing Unicode characters in byte sequences in computers, and discuss their advantages and disadvantages. These methods have well-known names like UTF-8 and UTF-16 ...


http://tbray.org/ongoing/When/200x/2003/04/26/UTF


29.04.2003. u 01:40 

tOwk
Danilo Šegan
Zemun/Beograd

Član broj: 94
Poruke: 2743
*.beograd-3.tehnicom.net

ICQ: 9344053
Sajt: alas.matf.bg.ac.yu/~mm011..


Profil

icon Re: Unicode, UCS, UTF, BLA(H), TRU(C) ;)30.04.2003. u 12:10
O svemu tome se može vrlo precizno saznati na www.unicode.org a za praktičare su tu i dokumenti kao što je RFC 2279 (UTF-8 — Transformation of ISO 10646), i mnogi drugi.

Na Unicode.org stranici imate i veliki broj „tehničkih izveštaja“ (TR) koji opisuju konkretnu primenu Unikoda za određene stvari, a treba izdvojiti UCA (Unikod kolacioni algoritam, valjda TR10, mali deo implementacije sam pisao za onaj mysql-srpski dodatak), određivanje odnosa među znakovima (u kakvom su odnosu znaci Č i č, a u kakvom A i ćirilično A), postupak normalizacije (Ć prelazi u acute+C), itd.

Zapravo, sve je to vrlo jednostavno kada character označiš kao „znak“ (slova, cifre, i svi ostali znaci — znači ono što ima smisla za čoveka), a byte kao „bajt“.

Znači, moja preporuka je (ipak nezaobilazna) adresa: www.unicode.org

Možda se moje mišljenje promenilo, ali ne i činjenica da sam u pravu.
30.04.2003. u 12:10 

tOwk
Danilo Šegan
Zemun/Beograd

Član broj: 94
Poruke: 2743
*.beograd-3.tehnicom.net

ICQ: 9344053
Sajt: alas.matf.bg.ac.yu/~mm011..


Profil

icon Re: Unicode, UCS, UTF, BLA(H), TRU(C) ;)30.04.2003. u 12:11
Uh, zaboravih da dodam i vezu ka RFC 2781 (UTF-16), za one koji to vole.

A pošto smo u temi za programiranje, sve za UTF-16 je za nas implementirao IBM u jednoj biblioteci otvorenog koda: ICU.

Možda se moje mišljenje promenilo, ali ne i činjenica da sam u pravu.
30.04.2003. u 12:11 

[es] :: Art of Programming :: Unicode, UCS, UTF, BLA(H), TRU(C) ;)

[ Pregleda: 1350 | Odgovora: 2 ]

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.