ja bih to još uopštio i rekao da bi utf8 trebao da bude preporučeni za sve moguće primene skladištenja i prenosa podataka, čak i kada je ceo text recimo čist kineski (kada će ova reprezentacija biti 2-3 puta duža od minimalne)..
razloga ima mnogo, ali glavni je onaj originalni zbog koga je utf8 i nastao, za čuvanje unikod imena fajlova na "starim" sistemima (koji znaju samo za jednobajtna kodiranja).
ako ime nekog fajla iskodiramo sa utf-16 (recimo NTFS, mada tačnije, tamo je valjda UCS-2), može da se desi da jedan od bajtova u jednom od karaktera ima vrednost 0x13 ili 0x10 (ili kod bilo kog drugog spec karaktera koji ne bi smeo da se nađe u imenu fajla, npr slash, dvotačka ili backslash).
kada tom istom fajlu pristupite iz nekog programa starijeg od samog unicode standarda, biće belaja..
zato je utf8 zakon, jer su spec karakteri isti kao u običnom ASCIIju, a svi ostali se kodiraju iznad 127. karaktera, i ne remete rad ni jedne stare aplikacije.
naravno, ta aplikacija će dobiti string pun "đubreta", ali ipak validnog đubreta koje neće smetati nikome. oni "važni" karakteri recimo za putanje fajlova (sleševi, backsleševi i tačke) će ostati isti, pa će i stara aplikacija moći da funkcioniše pravilno..