Re: 求助:關於Big5和Big5-HKSCS的問題

抱歉,回信晚了很多。

(12/06/13 0:20), Evan Li wrote:
> 就這個問題來說
> 因為這議題對我來說是有點大,而且我的編碼這領域還在摸索
> 所以整段文章看下來,有諸多不了解的部份,以下如果有一些不當的問題?也請大家不吝指教

我試著回答下面問題,也請大家不吝指教。

> 1.在顯示中文時,不能根據<meta charset="big5">,則瀏覽器就以big5來解碼,若設定為<meta
> charset="big5-hkscs">就以big5-hkscs來解碼嗎?為什麼一定要有一個預設的解碼呢?

主要是沒有人知道 "big5" 是什麼。"big5" 是一個大標籤,有很多種類[1],看起
來最「官方」的 big5-2003 就我所知沒有任何瀏覽器採用(也不知道到底有什麼
軟體採用),最不官方的微軟 CP950 有最多的使用者。

> 2.以目前firefox來說,若網頁設定為<meta
> charset="big5">時,解碼表big5所指的就是big5-2003嗎?還是big5-uao呢?

big5-uao。同樣參考[1]。

> 3.以菲哥(阿菲)舉的例子來說(
> http://lists.whatwg.org/htdig.cgi/whatwg-whatwg.org/2012-April/035370.html)
> "重唔變晒烏\x8b\xf8縮得就縮",得到的結論是opera-hk, firefox-hk, chrome-hk
> win,其他幾個例子也都是hk可以正確顯示。我比較好奇的是只拿香港的論壇或
> 文章來決定該用big-hkscs做為default的big5解碼表是適合的嗎?

單就以那篇文章的資料的確不合適,但是後來從 .tw 的網站也做了類似的事情
[2],基本上還是可以得到「雖然在香港 big5-hkscs 比 CP950 好很多,但是在台
灣其實 big5-uao 沒有比 CP950 好很多。」的結論。

> 這種情況我的感覺是,我在big5裡自建立台灣話的編碼big5-tw,再用台灣話的
> 論壇文章來證明,big5-tw是比較適合做為default的big5解碼表感覺,所以是否
> 應該先建立一套較完整的比較標準呢?

阿菲的比較標準是 Alexa 前百萬網站裡每個各選十頁,所以在[2]的統計裡面台灣
網站其實比香港網站多了,我不能說很喜歡這個標準(個人是希望前萬名每個一千
頁),但是主要問題是 Bing API 不能抓超過二十頁、、、另外,老實說我不覺得
換個方式會得到很不一樣的結果。

> 4.另外,所謂的預設解碼,是否應該參考哪一個編碼的涵蓋的字量比較多呢?

基本上字量不很重要,不過假如編碼 A 可解碼的字是編碼 B 的真父集,那一般用
A 就比較好。在這裡的問題是 big5-uao 跟 big5-hkscs 沒有子集父集的關係,是
有衝突的。

> 如果數量不是決定因素時,那是否也是要先建立一套較完整的benchmark來評估
> 哪一個編碼最適合呢?再請先進們幫忙解惑了!

[2]看起來還算不錯吧?當然,多弄一些各種情形(像是上面說的前萬名每個一千
頁)也不嫌少就是了。

(12/06/13 16:42), Evan Li wrote:
> 我再追加一個問題,由於我與一些台灣有在使用big5自造區的人討論到,似乎有
> 不少big5使用者會用到自造區,例如:
>
>    - 中國海
>    - UAO
>    - 漢字構型資料庫 ( http://cdp.sinica.edu.tw/ )
>    - 中華佛典CBETA ( http://www.cbeta.org/download/cbreader.php )
>    - 甚至於部份中文語言系的使用者都會使用自訂造字區
>    - 其他...
>
> 但如果瀏覽器的big5解碼表預設是使用big5-hkscs的話,那這些自造區的字是否
> 就無法呈現了呢?
> 還是FF本來就無法顯示自造區使用者製作的字型呢?

這個問題有點廣泛,UAO 跟 big5-hkscs 有一些重複吧?那這些重複的造字區的字
在 big5-hkscs 就可以呈現,否則不行。像是「漢字構型資料庫」和「中華佛典
CBETA」還真的沒聽過,大概不行,不過恐怕要拿對應表查一查。

有興趣的話可以來翻一下 Encoding Standard[3],裡面有 big5-hkscs 的對應表
(規範文字裡也有解讀的方法),其他的在[1]都有。

[1] http://moztw.org/docs/big5/
[2]
http://lists.whatwg.org/htdig.cgi/whatwg-whatwg.org/2012-April/035370.html
[3] http://dvcs.w3.org/hg/encoding/raw-file/tip/Overview.html


以上

Kenny

Received on Monday, 18 June 2012 05:26:28 UTC