Re: 求助：關於Big5和Big5-HKSCS的問題 from Evan Li on 2012-06-13 (public-html-ig-zh@w3.org from June 2012)

From: Evan Li <jenghung@gmail.com>
Date: Wed, 13 Jun 2012 16:42:17 +0800
To: "Kang-Hao (Kenny) Lu" <kennyluck@w3.org>
Cc: W3C HTML5 中文興趣小組 <public-html-ig-zh@w3.org>
Message-ID: <CAGhdFcW-vLkXT+DCkNbvv+c1VKJVqJ8oL+sxmauVb74r58oR9Q@mail.gmail.com>
Dear all,

我再追加一個問題，由於我與一些台灣有在使用big5自造區的人討論到，似乎有不少big5使用者會用到自造區，例如：

   - 中國海
   - UAO
   - 漢字構型資料庫 ( http://cdp.sinica.edu.tw/ )
   - 中華佛典CBETA ( http://www.cbeta.org/download/cbreader.php )
   - 甚至於部份中文語言系的使用者都會使用自訂造字區
   - 其他...

但如果瀏覽器的big5解碼表預設是使用big5-hkscs的話，那這些自造區的字是否就無法呈現了呢？
還是FF本來就無法顯示自造區使用者製作的字型呢？

Sincerely,
Evan (政宏)


Evan Li <jenghung@gmail.com> 於 2012年6月13日上午12:20 寫道：

> Dear all,
>
> 就這個問題來說
> 因為這議題對我來說是有點大，而且我的編碼這領域還在摸索
> 所以整段文章看下來，有諸多不了解的部份，以下如果有一些不當的問題？也請大家不吝指教
>
> 1.在顯示中文時，不能根據<meta charset="big5">，則瀏覽器就以big5來解碼，若設定為<meta
> charset="big5-hkscs">就以big5-hkscs來解碼嗎？為什麼一定要有一個預設的解碼呢？
>
> 2.以目前firefox來說，若網頁設定為<meta
> charset="big5">時，解碼表big5所指的就是big5-2003嗎？還是big5-uao呢？
>
> 3.以菲哥(阿菲)舉的例子來說(
> http://lists.whatwg.org/htdig.cgi/whatwg-whatwg.org/2012-April/035370.html
> )
> "重唔變晒烏\x8b\xf8縮得就縮"，得到的結論是opera-hk, firefox-hk, chrome-hk
> win，其他幾個例子也都是hk可以正確顯示。我比較好奇的是只拿香港的論壇或文章來決定該用big-hkscs做為default的big5解碼表是適合的嗎？這種情況我的感覺是，我在big5裡自建立台灣話的編碼big5-tw，再用台灣話的論壇文章來證明，big5-tw是比較適合做為default的big5解碼表感覺，所以是否應該先建立一套較完整的比較標準呢？
>
>
> 4.另外，所謂的預設解碼，是否應該參考哪一個編碼的涵蓋的字量比較多呢？如果數量不是決定因素時，那是否也是要先建立一套較完整的benchmark來評估哪一個編碼最適合呢？再請先進們幫忙解惑了！
>
> 因為文章中，還有很多資訊我還在消化了解中，小弟諸多愚見，所以會陸續再向各位先進請教！感謝大家！
> Sincerely,
> Evan (政宏)
>
>
> 2012/4/13 Kang-Hao (Kenny) Lu <kennyluck@w3.org>
>
>> (12/04/13 16:32), John Hax wrote:
>>
>> >
>> 作为一个大陆人，我对big5的各种variants没有什么经验。不过从已知的情况来看，私有区域的冲突是不可避免的，合并成一种似乎不太可能。统计哪个人群多（或哪种遗留网页多）来决定所选择的编码方式，似乎也并非一个政治正确的做法。
>>
>> 就全球的 'big5' 使用者做統一的確不見得是一件正確的事，不過就一個部份的使
>> 用者（zh-TW）就比較難說一點。
>>
>> > 如果就初始问题来说，当标为<meta
>> >
>> charset="big5">的网页究竟应该使用何种编码，则我觉得可以结合该网页的lang属性来判断。如果lang=zh-HK则使用big5-hkscs，而如果lang=zh-TW则使用big5-uao。
>>
>> 你這個想法似乎刻意省略了沒有 @lang 的狀況，從[1] big5 網頁抽了一些來看，
>> 十個裡面有加 @lang 的只有一兩個。
>>
>> 另外，靠 @lang 決定編碼肯定不是一個瀏覽器開發者很喜歡的選擇。
>>
>> > 其实浏览器软件自己当然是可以优化的，比如如果发现windows用户安装过hkscs
>> > package，则将charset=big5视作big5-hkscs。
>>
>> 嗯，這倒也是一個可以做的事。
>>
>> > 只是标准该如何制定呢？我感觉或许就是在标准里写明可能存在的冲突，要求浏览器必须提供额外的智能判断，
>>
>> 怎麼樣的智能判斷呢？
>>
>> > 并且提供额外的设置编码手段给用户（比如在网页顶部显示几种big5
>> > variants的选择按钮）。
>>
>> 你是說「編碼嗅探演算法」[2]第一步？
>>
>>  # 1. 若使用者指示使用者代理以某個編碼覆蓋文件的字符編碼，則使用者代理
>>  #    可回傳該編碼，可信度為「確定」，並退出這些步驟。
>>
>> 這裡的確是沒有一個類似「使用者代理必須提供使用者覆蓋文件字符編碼的方法」
>> 之類的規範符合敘述。你有興趣提這個意見嗎？（我倒是有點好奇這個規範符合敘
>> 述的可行性，特別是在行動裝置上的狀況。）
>>
>>
>> [1] https://gitorious.org/whatwg/big5/blobs/master/big5-urls.txt
>> [2]
>>
>> http://www.w3.org/html/ig/zh/wiki/HTML5/parsing#encoding-sniffing-algorithm
>>
>>
>> 此致
>>
>> Kenny
>>
>>
>
Received on Wednesday, 13 June 2012 08:47:24 UTC