- From: Kang-Hao (Kenny) Lu <kennyluck@w3.org>
- Date: Mon, 18 Jun 2012 13:25:58 +0800
- To: Evan Li <jenghung@gmail.com>
- CC: W3C HTML5 中文興趣小組 <public-html-ig-zh@w3.org>
抱歉,回信晚了很多。 (12/06/13 0:20), Evan Li wrote: > 就這個問題來說 > 因為這議題對我來說是有點大,而且我的編碼這領域還在摸索 > 所以整段文章看下來,有諸多不了解的部份,以下如果有一些不當的問題?也請大家不吝指教 我試著回答下面問題,也請大家不吝指教。 > 1.在顯示中文時,不能根據<meta charset="big5">,則瀏覽器就以big5來解碼,若設定為<meta > charset="big5-hkscs">就以big5-hkscs來解碼嗎?為什麼一定要有一個預設的解碼呢? 主要是沒有人知道 "big5" 是什麼。"big5" 是一個大標籤,有很多種類[1],看起 來最「官方」的 big5-2003 就我所知沒有任何瀏覽器採用(也不知道到底有什麼 軟體採用),最不官方的微軟 CP950 有最多的使用者。 > 2.以目前firefox來說,若網頁設定為<meta > charset="big5">時,解碼表big5所指的就是big5-2003嗎?還是big5-uao呢? big5-uao。同樣參考[1]。 > 3.以菲哥(阿菲)舉的例子來說( > http://lists.whatwg.org/htdig.cgi/whatwg-whatwg.org/2012-April/035370.html) > "重唔變晒烏\x8b\xf8縮得就縮",得到的結論是opera-hk, firefox-hk, chrome-hk > win,其他幾個例子也都是hk可以正確顯示。我比較好奇的是只拿香港的論壇或 > 文章來決定該用big-hkscs做為default的big5解碼表是適合的嗎? 單就以那篇文章的資料的確不合適,但是後來從 .tw 的網站也做了類似的事情 [2],基本上還是可以得到「雖然在香港 big5-hkscs 比 CP950 好很多,但是在台 灣其實 big5-uao 沒有比 CP950 好很多。」的結論。 > 這種情況我的感覺是,我在big5裡自建立台灣話的編碼big5-tw,再用台灣話的 > 論壇文章來證明,big5-tw是比較適合做為default的big5解碼表感覺,所以是否 > 應該先建立一套較完整的比較標準呢? 阿菲的比較標準是 Alexa 前百萬網站裡每個各選十頁,所以在[2]的統計裡面台灣 網站其實比香港網站多了,我不能說很喜歡這個標準(個人是希望前萬名每個一千 頁),但是主要問題是 Bing API 不能抓超過二十頁、、、另外,老實說我不覺得 換個方式會得到很不一樣的結果。 > 4.另外,所謂的預設解碼,是否應該參考哪一個編碼的涵蓋的字量比較多呢? 基本上字量不很重要,不過假如編碼 A 可解碼的字是編碼 B 的真父集,那一般用 A 就比較好。在這裡的問題是 big5-uao 跟 big5-hkscs 沒有子集父集的關係,是 有衝突的。 > 如果數量不是決定因素時,那是否也是要先建立一套較完整的benchmark來評估 > 哪一個編碼最適合呢?再請先進們幫忙解惑了! [2]看起來還算不錯吧?當然,多弄一些各種情形(像是上面說的前萬名每個一千 頁)也不嫌少就是了。 (12/06/13 16:42), Evan Li wrote: > 我再追加一個問題,由於我與一些台灣有在使用big5自造區的人討論到,似乎有 > 不少big5使用者會用到自造區,例如: > > - 中國海 > - UAO > - 漢字構型資料庫 ( http://cdp.sinica.edu.tw/ ) > - 中華佛典CBETA ( http://www.cbeta.org/download/cbreader.php ) > - 甚至於部份中文語言系的使用者都會使用自訂造字區 > - 其他... > > 但如果瀏覽器的big5解碼表預設是使用big5-hkscs的話,那這些自造區的字是否 > 就無法呈現了呢? > 還是FF本來就無法顯示自造區使用者製作的字型呢? 這個問題有點廣泛,UAO 跟 big5-hkscs 有一些重複吧?那這些重複的造字區的字 在 big5-hkscs 就可以呈現,否則不行。像是「漢字構型資料庫」和「中華佛典 CBETA」還真的沒聽過,大概不行,不過恐怕要拿對應表查一查。 有興趣的話可以來翻一下 Encoding Standard[3],裡面有 big5-hkscs 的對應表 (規範文字裡也有解讀的方法),其他的在[1]都有。 [1] http://moztw.org/docs/big5/ [2] http://lists.whatwg.org/htdig.cgi/whatwg-whatwg.org/2012-April/035370.html [3] http://dvcs.w3.org/hg/encoding/raw-file/tip/Overview.html 以上 Kenny
Received on Monday, 18 June 2012 05:26:28 UTC