Re: 求助:關於Big5和Big5-HKSCS的問題

(12/04/12 17:09), Yuan Chao wrote:
> 如果硬將Big5-HKSCS併入Big5,那會有更多的Big5-UAO網頁受到影響。
> 畢竟Big5-UAO的使用人數、content量應該都遠大於Big5-HKSCS吧?

多研究了一下,我發現 'big5-hkscs' 有一個很根本的問題,假如你把隨便一串從
日文維基百科得來的字拿去 Python 的 encode('big5-hkscs') 會拋錯的可能性太
高了(漢字問題,片假名平假名當然 'big5-hkscs' 都支援),但是從 Gecko 的
對照表來,很多漢字 'big5-uao' 都支援。也就是說,從「滿足可以輸出日文」這
個要求的角度來講,的確是很難想像台灣的網頁中 'big5-hkscs' 的內容量會比
'big5-uao' 大。

(我個人的確是沒有輸出港字的需求,而且老實說,上文裡面的兩個港字我都不會
唸,日文倒是都會 :p。我不知道這種情況是不是在台灣真的比較多。)

(12/04/13 12:24), Yuan Chao wrote:
> Let me sort it out the argument:
> based on data collected from dotnetdotcom.org, you find that
> big5-hkscs gives best mapping to unicode. (microsoft maps all the user
> extension area of big5 to private user area, PAU, of unicode ) So you
> suggest to merge the big5-hkscs to big5 as IE supports big5 only.
> 
> [恕刪其他論點]

阿菲還有一個很很主要的論點:

台灣佔有率只有 10% 的 Firefox 處理 'big5' 的方法不太可能是最好的。


老實說我對這點很疑惑,Chrome(在台灣佔有率比 Firefox 高)的 bug 列表上有
「希望 'big5' 照 Firefox 處理」相關的 bug 嗎?

>> 這裡有沒有多一點資料供阿菲參考呢?對我自己比較有影響的是 PTT C_Chat
>> 版的 Web 存檔,舉個例子:
>> 但是 Web 存檔就是 Web 存檔,老實說沒有也沒有關係(但是我碰到這個存檔
>> 的機率還是比任何香港網站都大很多),有沒有人有其他有在用 'big5-uao'
>> 的網站的連結?
>
> There are many college BBS system, which still using big5 instead of
> unicode, providing web interface, not just ptt.cc. Just that I
> personally didn't touch them for long.

我又找到了一個,巴哈姆特的 xddd:

http://webbbs.gamer.com.tw/readPost.php?brd=CV&p=8365&x=A13KIAMD

在這個例子中使用把瀏覽器調成 'big5-hkscs' 已經在不可接受的範圍了。不過我
還是沒找到跟 BBS 無關的例子、、、、我覺得那種例子會比較有說服力一點,BBS
軟體的確是 100% 'big5-uao' 沒有疑問。

>> Merging Big5 and Big5-HKSCS is not a goal in itself, but we must decide what
>> mapping <meta charset="big5"> should use. Is there any mapping that would
>> fix more pages than the one I've proposed?
> For HK related contents, it's either you specify "big5-hkscs" in
> Firefox/Chrome/Opera encoding, or install the patch from HK government
> to view in IE. I don't see the need of merging big5 and big5-hkscs.
> Also from your survey, big5-hkscs works best for HK related contents.
> To me, having two major big5 variants, big5-uao and big5-hkscs, is the
> best solution.

如果我沒弄錯的話,你的最後一句話的意思是瀏覽器應該支援 Firefox 的作法對吧?

這裡一直就是兩個很有關系但是不是直接相關的問題:

一、台灣版的瀏覽器(zh-TW)碰到 <meta charset="big5"> 到底該怎麼處理?

A. 使用現況(CP950?)

B. 使用 'big5-uao' 解碼(Firefox)

C. 使用 'big5-hkscs'

... 的選項


二、使用哪種解碼映射可以讓台灣使用者看到最多正確內容?


我覺得不管怎麼樣,問題二都是一個相當科學的考古問題,而我覺得問題一使用問
題二的答案應該是好的。比如說,我覺得 <meta charset="big5"> 就至少要解碼
'big5-uao' 和 'big5-hkscs' 的交集,這至少包括平假名和片假名。

我想 C. 不好,因為看到錯誤的那容比看到很多框還糟糕。至於 B.... 不知道。
我覺得 A. 是一個不求進步的解法,不是很好。不過假如說有人有「使用
'big5-uao' 和 'big5-hkscs' 的交集,還是有解碼錯誤的內容。」的實例,或是
有其它我們該用 A. 的理由(安全問題?),也是應該拿出來討論一下。


至於產生一個新的編碼,叫做 'big5-uao' 之類的,我覺得根本不是一個選項,任
何新的網站都應該直接叫它用 'utf-8' 就好了。這個問題一直都是「過去的內容
到底要怎麼處理的問題」。


另外一個問題就是非台灣版本的瀏覽器(zh-TW)該怎麼處理 <meta
charset=big5>,比如說[1]也有提到香港(zh-HK)也有人用 'big5-uao',不過到
底還是 'big5-hkscs' 的比較多吧?至於其它版本我就真的不知道了,有人知道為
什麼 'big5-uao' 沒有成為國際標準嗎?


>> 另外,有沒有人知道台灣有多少比例的人有裝 Unicode 補完?
> 
>> 2. 在 Windows 下為什麼要裝這個 package 而不是 Unicode 補完?這樣 Firefox
>> 的 "big5" 還會是最好嗎?
>> 3. 所以 Windows 下現在裝 Big5-HKSCS packgage 的人跟 Unicode 補完的哪一個多?
> I really don't know. PieTTY and PCMan bbs software also has UAO
> builtin. Can I count all people using Firefox and PCMan?
> http://forum.moztw.org/viewtopic.php?f=11&t=30982

那是另一種統計,當然資料越多越好。注意到 PieTTY 和 PCMan 不直接產生 Web
上 'big5-uao' 的內容,而 Firefox 根本不會產生 'big5-uao' 的內容(因為單
向對應)。了解會產生 'big5-uao'(Windows 裝了 Unicode 補完的 IE?)或
'big5-hkscs' 的瀏覽器佔有率分別是多少會比較有幫助一點。


[1] http://moztw.org/docs/big5/


此致

Kenny

Received on Friday, 13 April 2012 09:57:16 UTC