W3C home > Mailing lists > Public > public-html-ig-zh@w3.org > April 2012

Re: 求助:關於Big5和Big5-HKSCS的問題

From: Bob Chao <bobchao@gmail.com>
Date: Tue, 17 Apr 2012 19:40:46 +0800
To: "Kang-Hao (Kenny) Lu" <kennyluck@csail.mit.edu>
Cc: W3C HTML5 中文興趣小組 <public-html-ig-zh@w3.org>, Philip Jägenstedt <philipj@opera.com>
Message-ID: <81F56CF71E8549D4BF21501C08DFD81F@gmail.com>
或許開個 Google spreadsheet 大家上去幫忙人肉比對一下?  
還是你覺得 1000 個很快? XD

~Bob  

--  
Chao Po-chiang [:bobchao]
Mozillian, Creative Commoner, UX Ninja wannabe.
http://blog.bobchao.net


On 2012年4月17日Tuesday at 下午7:34, Kang-Hao (Kenny) Lu wrote:

> (12/04/16 3:11), Philip Jägenstedt wrote:
> > In English, since the methods used will be of interest also to Anne van
> > Kesteren and possibly others.
> >  
> > My goal was to find a big and representative sample of Big5 usage on
> > Taiwan. Alexa's top million sites [1] lists 2951 .tw sites. Using
> > "site:example.com.tw" searches for all of those using the Bing API [2]
> > generated a list of ~120k URLs.[3] ~116k of those were successfully
> > fetched using a Python script.[4] Another script [5] identified ~38k of
> > them labeled as Big5 and decoded them using the spec algorithm to
> > collect statistics. A final script [6] filtered out ~36k pages with low
> > error rates to exclude misencodings, which is as close to a random
> > sample of Taiwanese Big5 pages that I can get.
> >  
> > The same script identified the pages that would yield different results
> > with the spec mapping (~HKSCS) and the firefox mapping (~UAO), finding
> > 294 such pages. Manually removing obvious misencoded nonsense left 190
> > which will need more analysis.[7] My initial impression is that a lot of
> > these pages are likely to be garbage, but there are some which are
> > obviously Big5-UAO...
> >  
>  
>  
> (依樣畫葫蘆用阿菲的腳本跑了一下 .hk 的網站,聽說阿菲也在做同樣的事、、、)
>  
> .hk 站數: 975
> Bing API 抓的 URL: ~33k
> 成功下載: ~32k
> big5/big5-hkscs 頁面: ~6k
>  
> UAO 和 HKSCS 不合[1]的有: 387,其中 317 個是標成 big5,只有 70 個標成
> big5-hkscs。
>  
> 我人肉分類了阿菲上面的 190 個裡面的最後 20 個和這 317 個裡面的最後一個,
> 結果[2]如下:
>  
> .tw: 20 個裡面 15 個我看不出哪個比較好,5 個確定是 big5-uao 比較好。
> .hk: 20 個裡面 5 個我看不出哪個比較好,15 個確定是 big5-hkscs 比較好。
>  
> (歡迎大家人肉把剩下的做完 :p)
>  
>  
> 我初步的結論是:zh-HK 和其他非 zh-TW 的瀏覽器可能把 big5 解讀成
> big5-hkscs 真的比較好(畢竟 15 > 5 ,不過這裡相當有爭議,之後繼續討
> 論),當然,瀏覽器應該保有一個可以切換成 big5-uao 的選項(只是沒有
> charset=XXX 可以啟動 big5-uao),輸出還是 CP950(單向 big5-hkscs)。zh-
> TW 瀏覽器則是用 Firefox 的:big5 解讀成 big5-uao,輸出 CP950。當然這邊還
> 有嗅探等等有的沒有的方案再繼續討論。
>  
>  
> 不過關於目前這個腳本,我發現抓下來的網頁裡面 big5-uao 和 big5-hkscs 的差
> 異裡*沒有日文的句子*。目前不太確定要怎麼解釋這個現象,當然有可能很單純的
> 只是日文的頁面都沒有進到這些網站的前 50 個頁面。所以我下一步打算:
>  
> 從
>  
> Alexa 前一百萬個網站裡的 .tw/.hk 網站裡面每個各找 50 頁
>  
> 改成從
>  
> Alexa 前兩萬個網站裡的 .tw/.hk 網站裡面每個各找 1,000 頁
>  
> 之類的。
>  
> 我想這也比較反應 PV 一點。不知道有沒有數據挖掘專家對這點有什麼看法?
>  
>  
> [1] http://www.w3.org/html/ig/zh/wiki/Big5-hkscs-vs-uao-in-hk
> [2] http://www.w3.org/html/ig/zh/wiki/Big5
>  
>  
> 此致
>  
> Kenny  
Received on Tuesday, 17 April 2012 11:41:24 UTC

This archive was generated by hypermail 2.3.1 : Tuesday, 6 January 2015 20:43:50 UTC