Nội dung chính
Hệ thống Unicode
Unicode là một kiểu mã hóa ký tự chuẩn quốc tế. Unicode được sử dụng trong hầu hết các ngôn ngữ văn bản điện tử của thế giới.
Tại sao Java sử dụng Hệ thông Unicode
Trước khi có Unicode, đã có rất nhiều tiêu chuẩn khác:
- ASCII (American Standard Code for Information Interchange) được sử dụng ở Hoa Kỳ
- ISO 8859-1 được sử dụng ở Tây Âu
- KOI-8 được sử dụng ở Nga
- GB18030 and BIG-5
Và như vậy, có 2 vẫn đề xảy ra!
- Thứ nhất, Một giá trị mã cụ thể tương ứng với ký tự khác nhau trong các tiêu chuẩn ngôn ngữ khác nhau.
- Thứ hai, Các kiểu mã hóa cho các ngôn ngữ với tập các ký tự lớn có biến length. Nhiều ký tự thông dụng được mã hóa thành 1 byte, những ký tự khác yêu cầu 2 hoặc nhiều byte.
Để giải quyết vấn đề này, có một vài chuẩn mã hóa ký tự được ra đời, trong đó có Unicode.
Trong Unicode, mỗi ký tự chiếm 2 byte, Vì thế java cũng sử dụng 2 byte cho mỗi ký tự.
Giá trị nhỏ nhất: \u0000
Giá trị lớn nhất: \uFFFF