W3C home > Mailing lists > Public > public-html-ig-zh@w3.org > May 2011

Re: 字符编码

From: Timothy Chien <timdream@gmail.com>
Date: Mon, 9 May 2011 10:48:59 +0800
Message-ID: <BANLkTinEEyFSMzfGcX+vOTEd3ox+Yvru8A@mail.gmail.com>
To: Ben Luo <benluo@gmail.com>
Cc: public-html-ig-zh@w3.org
那是記憶體內部處理文字的標準吧?與檔案的編碼無關。
意思是說,

('字').charCodeAt(0)

會傳回 UCS-2 code point。


不過後果就是 UCS-2 塞不進去的 Unicode code point,像是 Ext-B 的漢字,
在 Javascript 裡面會被拆成兩個字元,這時要找到真正的 Unicode code point 就要把兩個字元的字碼都讀出來處理:

https://developer.mozilla.org/en/JavaScript/Reference/Global_Objects/String/charCodeAt#Example_2.3a_Fixing_charCodeAt_to_handle_non-Basic-Multilingual-Plane_characters_if_their_presence_earlier_in_the_string_is_unknown

算是在電腦文字處理發展史上,在節省記憶體 vs 容納所有字元之間目前大家選擇的界線。

2011/5/9 Ben Luo <benluo@gmail.com>:
> 昨天看 ECMAScript v5 的标准,字符编码要求是UCS-2 或 UTF-16,
> 在html5中是什么要求?在现实中好像大家都是用utf-8作为字符编码。对此大家有什么心得?
>
> 如果问题和html5无关,请忽略。
>
> benluo
>
Received on Monday, 9 May 2011 02:49:48 UTC

This archive was generated by hypermail 2.3.1 : Tuesday, 6 January 2015 20:43:48 UTC