W3C home > Mailing lists > Public > public-html-ig-zh@w3.org > June 2012

Re: 求助:關於Big5和Big5-HKSCS的問題

From: Yuan Chao <yuanchao@gmail.com>
Date: Thu, 28 Jun 2012 12:02:20 +0800
Message-ID: <CAADKi7mYafM-M2CQN-F0L=_Aap1ND3VCzM1R4mE9sDSjNVFdsA@mail.gmail.com>
To: "Kang-Hao (Kenny) Lu" <kennyluck@w3.org>
Cc: Evan Li <jenghung@gmail.com>, W3C HTML5 中文興趣小組 <public-html-ig-zh@w3.org>
2012/6/26 Kang-Hao (Kenny) Lu <kennyluck@w3.org>:

不好意思,又回信晚了。

>> [1]的說法是big5-2003+uao
> 嗯,你說的對,網頁上是寫:
> 主體是以 Big5-2003 為主, 但在造字與保留區則引入 UAO 的字集

> 不知道為什麼我、阿菲還有提拉米蘇開始稱呼這個編碼叫做 big5-uao(可能是
> big5-mozilla 太有「專有」的感覺?),然後我不知不覺得就以為這是 UAO 為主了。
畢竟Big5 2003擴充的部份相當有限,很自然我們都把重心放在UAO的部份。
不過我覺得叫big5-mozilla也沒什麼不好。 :)

> 不過在阿菲的研究裡,他比較的就是 Mozilla 的編碼和 big5-hkscs,沒有比錯東西。
也許就直接叫big5-mozilla吧。不過後來的重心,其實是在衝突的部份。

剛好翻到了居士的這篇文章:(繼續考古)
[2]  http://www.openfoundry.org/tw/home/222

原來Big5-2003有考慮到Big5-hkscs,只是應該是hkscs早期的版本。
只是為何都沒有很多軟體採用Big5-2003這個官方的標準?


>>>> 3.以菲哥(阿菲)舉的例子來說(
>>>> http://lists.whatwg.org/htdig.cgi/whatwg-whatwg.org/2012-April/035370.html)
>>>> "重唔變晒烏\x8b\xf8縮得就縮",得到的結論是opera-hk, firefox-hk, chrome-hk
>>>> win,其他幾個例子也都是hk可以正確顯示。我比較好奇的是只拿香港的論壇或
>>>> 文章來決定該用big-hkscs做為default的big5解碼表是適合的嗎?
>>>
>>> 單就以那篇文章的資料的確不合適,但是後來從 .tw 的網站也做了類似的事情
>>> [2],基本上還是可以得到「雖然在香港 big5-hkscs 比 CP950 好很多,但是在台
>>> 灣其實 big5-uao 沒有比 CP950 好很多。」的結論。
>>
>> Kenny有發現@些網頁似乎是採用big5-2003的編碼,我的猜測則是有不少其實是
>> 從office文件直接複製貼上,再轉換成html格式的。所以像是分項符號,
>> 跟英文常見的'在big5-hkscs跟big5-uao都無法正確解釋。
>
> 喔,這是@個很有趣的解釋,Office 的 big5 是 big5-2003?歷史原因是什麼?
> 為什麼不是 CP950?
原本我是以為那只是複製貼上後mapping錯誤,(本來big5-1984就沒有那個字)
因為剛好都是在標點跟分項目符號上。是Kenny發現可以對到big5-2003的啊!


>>>> 4.另外,所謂的預設解碼,是否應該參考哪@個編碼的涵蓋的字量比較多呢?

我沒有仔細對照big5-2003的對應字碼,不過按照上面[2]的說法,
big5-mozilla跟big5-hkscs的最大聯集應該就是big5-2003?

>>>
>>> 基本上字量不很重要,不過假如編碼 A 可解碼的字是編碼 B 的真父集,那@般用
>>> A 就比較好。在這裡的問題是 big5-uao 跟 big5-hkscs 沒有子集父集的關係,是
>>> 有衝突的。
>>>
>>>> 如果數量不是決定因素時,那是否也是要先建立@套較完整的benchmark來評估
>>>> 哪@個編碼最適合呢?再請先進們幫忙解惑了!
>>>
>>> [2]看起來還算不錯吧?當然,多弄@些各種情形(像是上面說的前萬名每個@千
>>> 頁)也不嫌少就是了。
>>
>> 目前似乎只有bing有這個的api可以免費使用,會不會造成什麼樣的bias也不得而知。
>
> 歡迎繼續提供數據。
>
>>> (12/06/13 16:42), Evan Li wrote:
>>>> 我再追加@個問題,由於我與@些台灣有在使用big5自造區的人討論到,似乎有
>>>> 不少big5使用者會用到自造區,例如:
>>>>
>>>>    - 中國海
>>>>    - UAO
>>>>    - 漢字構型資料庫 ( http://cdp.sinica.edu.tw/ )
>>>>    - 中華佛典CBETA ( http://www.cbeta.org/download/cbreader.php )
>>>>    - 甚至於部份中文語言系的使用者都會使用自訂造字區
>>>>    - 其他...
>>>>
>>>> 但如果瀏覽器的big5解碼表預設是使用big5-hkscs的話,那這些自造區的字是否
>>>> 就無法呈現了呢?
>>
>> 以目前Firefox跟Opera的@法來說(Chrome不清楚),瀏覽器自帶解碼表,
>> 因此在w3c的標準下,非定義的使用自訂造字區會對應到unicode的@個缺字符號,
>> Opera完全依照w3c的標準,
>
> 等等,這裡指的是什麼標準?

這是阿菲提供的連結,只是Kenny知道是誰submit的嗎?
為什麼沒有用Big5-2003?
http://dvcs.w3.org/hg/encoding/raw-file/tip/Overview.html#big5


>> Firefox則是不顯示。上述的幾個字造字都無法顯示。不過因為Firefox後來採用
>> 了big5-2003+uao,在與big5-2003不衝突的UAO有收錄,且UAO收錄了大部分的中
>> 國海字型(沒有鍵盤符號),因此「大多數」的1, 2可以正常顯示。
>>
>>> [1] http://moztw.org/docs/big5/
>
>
> 以上
>
> Kenny
>



-- 
Best regards,
Yuan Chao
Received on Thursday, 28 June 2012 04:03:10 UTC

This archive was generated by hypermail 2.3.1 : Tuesday, 6 January 2015 20:43:50 UTC