Re: 求助:關於Big5和Big5-HKSCS的問題

(12/06/28 12:02), Yuan Chao wrote:
> 2012/6/26 Kang-Hao (Kenny) Lu <kennyluck@w3.org>:
>>> Kenny有發現一些網頁似乎是採用big5-2003的編碼,我的猜測則是有不少其實是
>>> 從office文件直接複製貼上,再轉換成html格式的。所以像是分項符號,
>>> 跟英文常見的'在big5-hkscs跟big5-uao都無法正確解釋。
>>
>> 喔,這是一個很有趣的解釋,Office 的 big5 是 big5-2003?歷史原因是什麼?
>> 為什麼不是 CP950?
>>
> 原本我是以為那只是複製貼上後mapping錯誤,(本來big5-1984就沒有那個字)
> 因為剛好都是在標點跟分項目符號上。是Kenny發現可以對到big5-2003的啊!

假設

1. Office 沒有用 big5-2003
2. Office 用 CP950

那複製貼上一個在 big5-2003 但是不在 CP950 的字符之後,再用 Office 存成
big5,再打開應該是會出現 U+FFFD � 這類的東西,所以問題是這些 big5-2003
的來源到底是哪裡?

>>> 以目前Firefox跟Opera的作法來說(Chrome不清楚),瀏覽器自帶解碼表,
>>> 因此在w3c的標準下,非定義的使用自訂造字區會對應到unicode的一個缺字符號,
>>> Opera完全依照w3c的標準,
>>
>> 等等,這裡指的是什麼標準?
> 
> 這是阿菲提供的連結,只是Kenny知道是誰submit的嗎?

喔喔,Opera 的 Anne van Kesteran。不過這還不是 W3C 的標準喔,只是放到
W3C 的 HG 檔案庫而已。另外,Opera 還目前還沒有把 big5 當作 big5-hkscs
吧?記得是類似 CP950 的東西、、、

> 為什麼沒有用Big5-2003?
> http://dvcs.w3.org/hg/encoding/raw-file/tip/Overview.html#big5

實際上資料結果的確是可以解釋成 big5-hkscs 比較好,所以文件自然就這樣寫
了,然後就沒人去反對而已。有興趣反對的人請參考文件上面的參與資訊:

  # Participate:
  #    Send feedback to whatwg@whatwg.org (archives) or file a bug
  #    (open bugs)
  #    IRC: #whatwg on Freenode

就我來說的話,不管這份文件怎麼寫的,我倒是很有興趣把 Firefox 弄更靠近
big5-2003 一點(畢竟的確是發現了 big5-mozilla 不能處理的 big5-2003),但
是我在 mozilla.dev.general.zh[1] 上也徵求不到志願者,所以總之,開源精神
嘛,patch welcome!有興趣合作的人請私下聯絡。

我自己是覺得一個文件在這裡怎麼寫不是很重要,數據我們也有了,討論也有了,
再來只有幫瀏覽器改進或是不幫兩種。另外,微軟的人都已經在 ietf-charsets 講[2]

  [[ Our implementation of encodings WILL NOT change.  Ever. ]]

所以就算這份文件變成一份 W3C 規範,前途還是相當黯淡,畢竟:

1. 總是會有人說:「還搞這個幹嘛,用 UTF-8 不就好了。」(不否認我也有這種
想法,所以僅作有限度的幫忙。)
2. 微軟的宣言是合理的,改變整個 OS 的編碼除了危險以外沒什麼好說的,讓
IE10+ 用自己的編碼庫可能也會有很多問題。

所以總之,在有人有興趣有興趣合作之前,繼續翻 css3-flexbox 去。歡迎去點上
面的 "file a bug"。

[1]
https://groups.google.com/forum/#!msg/mozilla.dev.general.zh/-UN8QjOU4aE/Qo-lWCwWz7IJ
[2] http://permalink.gmane.org/gmane.ietf.charsets/588



以上

Kenny

Received on Thursday, 28 June 2012 23:44:05 UTC