W3C home > Mailing lists > Public > public-html-ig-zh@w3.org > April 2012

Re: 求助:關於Big5和Big5-HKSCS的問題

From: Kang-Hao (Kenny) Lu <kennyluck@w3.org>
Date: Fri, 13 Apr 2012 18:26:41 +0800
Message-ID: <4F87FF61.1070906@w3.org>
To: John Hax <johnhax@gmail.com>
CC: Hawkeyes Wind <hawkeyes0.cn@gmail.com>, W3C HTML5 中文興趣小組 <public-html-ig-zh@w3.org>
(12/04/13 16:32), John Hax wrote:
> 作为一个大陆人,我对big5的各种variants没有什么经验。不过从已知的情况来看,私有区域的冲突是不可避免的,合并成一种似乎不太可能。统计哪个人群多(或哪种遗留网页多)来决定所选择的编码方式,似乎也并非一个政治正确的做法。

就全球的 'big5' 使用者做統一的確不見得是一件正確的事,不過就一個部份的使
用者(zh-TW)就比較難說一點。

> 如果就初始问题来说,当标为<meta
> charset="big5">的网页究竟应该使用何种编码,则我觉得可以结合该网页的lang属性来判断。如果lang=zh-HK则使用big5-hkscs,而如果lang=zh-TW则使用big5-uao。

你這個想法似乎刻意省略了沒有 @lang 的狀況,從[1] big5 網頁抽了一些來看,
十個裡面有加 @lang 的只有一兩個。

另外,靠 @lang 決定編碼肯定不是一個瀏覽器開發者很喜歡的選擇。

> 其实浏览器软件自己当然是可以优化的,比如如果发现windows用户安装过hkscs
> package,则将charset=big5视作big5-hkscs。

嗯,這倒也是一個可以做的事。

> 只是标准该如何制定呢?我感觉或许就是在标准里写明可能存在的冲突,要求浏览器必须提供额外的智能判断,

怎麼樣的智能判斷呢?

> 并且提供额外的设置编码手段给用户(比如在网页顶部显示几种big5
> variants的选择按钮)。

你是說「編碼嗅探演算法」[2]第一步?

  # 1. 若使用者指示使用者代理以某個編碼覆蓋文件的字符編碼,則使用者代理
  #    可回傳該編碼,可信度為「確定」,並退出這些步驟。

這裡的確是沒有一個類似「使用者代理必須提供使用者覆蓋文件字符編碼的方法」
之類的規範符合敘述。你有興趣提這個意見嗎?(我倒是有點好奇這個規範符合敘
述的可行性,特別是在行動裝置上的狀況。)


[1] https://gitorious.org/whatwg/big5/blobs/master/big5-urls.txt
[2]
http://www.w3.org/html/ig/zh/wiki/HTML5/parsing#encoding-sniffing-algorithm


此致

Kenny
Received on Friday, 13 April 2012 10:27:12 UTC

This archive was generated by hypermail 2.3.1 : Tuesday, 6 January 2015 20:43:50 UTC