W3C home > Mailing lists > Public > public-html-ig-zh@w3.org > April 2012

Re: 求助:關於Big5和Big5-HKSCS的問題

From: Kang-Hao (Kenny) Lu <kennyluck@csail.mit.edu>
Date: Tue, 17 Apr 2012 19:34:20 +0800
Message-ID: <4F8D553C.9000802@csail.mit.edu>
To: W3C HTML5 中文興趣小組 <public-html-ig-zh@w3.org>
CC: Philip Jägenstedt <philipj@opera.com>
(12/04/16 3:11), Philip Jägenstedt wrote:
> In English, since the methods used will be of interest also to Anne van
> Kesteren and possibly others.
> 
> My goal was to find a big and representative sample of Big5 usage on
> Taiwan. Alexa's top million sites [1] lists 2951 .tw sites. Using
> "site:example.com.tw" searches for all of those using the Bing API [2]
> generated a list of ~120k URLs.[3] ~116k of those were successfully
> fetched using a Python script.[4] Another script [5] identified ~38k of
> them labeled as Big5 and decoded them using the spec algorithm to
> collect statistics. A final script [6] filtered out ~36k pages with low
> error rates to exclude misencodings, which is as close to a random
> sample of Taiwanese Big5 pages that I can get.
> 
> The same script identified the pages that would yield different results
> with the spec mapping (~HKSCS) and the firefox mapping (~UAO), finding
> 294 such pages. Manually removing obvious misencoded nonsense left 190
> which will need more analysis.[7] My initial impression is that a lot of
> these pages are likely to be garbage, but there are some which are
> obviously Big5-UAO...

(依樣畫葫蘆用阿菲的腳本跑了一下 .hk 的網站,聽說阿菲也在做同樣的事、、、)

.hk 站數: 975
Bing API 抓的 URL: ~33k
成功下載: ~32k
big5/big5-hkscs 頁面: ~6k

UAO 和 HKSCS 不合[1]的有: 387,其中 317 個是標成 big5,只有 70 個標成
big5-hkscs。

我人肉分類了阿菲上面的 190 個裡面的最後 20 個和這 317 個裡面的最後一個,
結果[2]如下:

.tw: 20 個裡面 15 個我看不出哪個比較好,5 個確定是 big5-uao 比較好。
.hk: 20 個裡面  5 個我看不出哪個比較好,15 個確定是 big5-hkscs 比較好。

(歡迎大家人肉把剩下的做完 :p)


我初步的結論是:zh-HK 和其他非 zh-TW 的瀏覽器可能把 big5 解讀成
big5-hkscs 真的比較好(畢竟 15 > 5 ,不過這裡相當有爭議,之後繼續討
論),當然,瀏覽器應該保有一個可以切換成 big5-uao 的選項(只是沒有
charset=XXX 可以啟動 big5-uao),輸出還是 CP950(單向 big5-hkscs)。zh-
TW 瀏覽器則是用 Firefox 的:big5 解讀成 big5-uao,輸出 CP950。當然這邊還
有嗅探等等有的沒有的方案再繼續討論。


不過關於目前這個腳本,我發現抓下來的網頁裡面 big5-uao 和 big5-hkscs 的差
異裡*沒有日文的句子*。目前不太確定要怎麼解釋這個現象,當然有可能很單純的
只是日文的頁面都沒有進到這些網站的前 50 個頁面。所以我下一步打算:

從

  Alexa 前一百萬個網站裡的 .tw/.hk 網站裡面每個各找 50 頁

改成從

  Alexa 前兩萬個網站裡的 .tw/.hk 網站裡面每個各找 1,000 頁

之類的。

我想這也比較反應 PV 一點。不知道有沒有數據挖掘專家對這點有什麼看法?


[1] http://www.w3.org/html/ig/zh/wiki/Big5-hkscs-vs-uao-in-hk
[2] http://www.w3.org/html/ig/zh/wiki/Big5


此致

Kenny
Received on Tuesday, 17 April 2012 11:34:56 UTC

This archive was generated by hypermail 2.3.1 : Tuesday, 6 January 2015 20:43:50 UTC