(wrong string) 關於Big5和Big5-HKSCS的問題 from John Hax on 2012-04-13 (public-html-ig-zh@w3.org from April 2012)

From: John Hax <johnhax@gmail.com>
Date: Fri, 13 Apr 2012 19:55:46 +0800
To: "Kang-Hao (Kenny) Lu" <kennyluck@w3.org>
Cc: (wrong string) 興趣小組 <public-html-ig-zh@w3.org>
Message-ID: <CAEeYXHUu47F=4XLyTFUZCJxMSHjwDb49D9PQ0CSwxX4BLn0VAg@mail.gmail.com>

2012/4/13 Kang-Hao (Kenny) Lu <kennyluck@w3.org>

> > 如果就初始问题来说，当标为<meta
> >
> charset="big5">的网页究竟应该使用何种编码，则我觉得可以结合该网页的lang属性来判断。如果lang=zh-HK则使用big5-hkscs，而如果lang=zh-TW则使用big5-uao。
>
> 你�@個想法似乎刻意省略了沒有 @lang 的狀況，從[1] big5 網頁抽了一些來看，
> 十個裡面有加 @lang 的只有一兩個。
>
> 另外，靠 @lang 決定編碼肯定不是一個瀏覽器開發者很喜歡的選擇。
>
>
并非刻意忽略，只是假如有lang属性（或者类似的http
content-language头），可以帮助判断。在没有lang的情况，也可以检查用户在浏览器所设置的prefer
lang。当然这个隐含前提是服务器有更大几率返回prefer lang的文件，或用户更大几率是在阅读和prefer
lang一致的网页。而对于一个香港人阅读台湾网页或台湾人阅读香港网页就没什么帮助。（或者有反作用？）


> 其实浏览器软件自己当然是可以优化的，比如如果发现windows用户安装过hkscs
> > package，则将charset=big5视作big5-hkscs。
>
> 嗯，�@倒也是一個可以做的事。
>
> > 只是标准该如何制定呢？我感觉或许就是在标准里写明可能存在的冲突，要求浏览器必须提供额外的智能判断，
>
> 怎麼樣的智能判斷呢？
>

其实就是像前面提到的，根据lang属性、content-language头、prefer
language设置等，再有就是编码嗅探，根据解码异常或者字频统计来改变编码（估计已经超出了当前在parse阶段编码嗅探算法的要求）。


>
> > 并且提供额外的设置编码手段给用户（比如在网页顶部显示几种big5
> > variants的选择按钮）。
>
> 你是說「編碼嗅探演算法」[2]第一步？
>

其实这里我指的并非是在parse阶段或页面解码之前，而是指当页面以某种编码显示之后，假如浏览器发现也可能是另外一种编码，则给用户修改的可能。


>
>
> �@裡的確是沒有一個類似「使用者代理必須提供使用者覆蓋文件字符編碼的方法」
> 之類的規範符合敘述。你有興趣提�@個意見嗎？（我倒是有點好奇�@個規範符合敘
> 述的可行性，特別是在行動裝置上的狀況。）
>
>
不一定是“必须提供（MUST/SHOULD）”，我觉得讲“可以（MAY）提供”应该就成了。其实即使在mobile设备上也是可以的，因为不过就是显示两个额外的按钮就可以了（类似记住密码之类的）。

Received on Friday, 13 April 2012 11:56:19 UTC