- From: Kang-Hao (Kenny) Lu <kennyluck@csail.mit.edu>
- Date: Tue, 17 Apr 2012 19:34:20 +0800
- To: W3C HTML5 中文興趣小組 <public-html-ig-zh@w3.org>
- CC: Philip Jägenstedt <philipj@opera.com>
(12/04/16 3:11), Philip Jägenstedt wrote: > In English, since the methods used will be of interest also to Anne van > Kesteren and possibly others. > > My goal was to find a big and representative sample of Big5 usage on > Taiwan. Alexa's top million sites [1] lists 2951 .tw sites. Using > "site:example.com.tw" searches for all of those using the Bing API [2] > generated a list of ~120k URLs.[3] ~116k of those were successfully > fetched using a Python script.[4] Another script [5] identified ~38k of > them labeled as Big5 and decoded them using the spec algorithm to > collect statistics. A final script [6] filtered out ~36k pages with low > error rates to exclude misencodings, which is as close to a random > sample of Taiwanese Big5 pages that I can get. > > The same script identified the pages that would yield different results > with the spec mapping (~HKSCS) and the firefox mapping (~UAO), finding > 294 such pages. Manually removing obvious misencoded nonsense left 190 > which will need more analysis.[7] My initial impression is that a lot of > these pages are likely to be garbage, but there are some which are > obviously Big5-UAO... (依樣畫葫蘆用阿菲的腳本跑了一下 .hk 的網站,聽說阿菲也在做同樣的事、、、) .hk 站數: 975 Bing API 抓的 URL: ~33k 成功下載: ~32k big5/big5-hkscs 頁面: ~6k UAO 和 HKSCS 不合[1]的有: 387,其中 317 個是標成 big5,只有 70 個標成 big5-hkscs。 我人肉分類了阿菲上面的 190 個裡面的最後 20 個和這 317 個裡面的最後一個, 結果[2]如下: .tw: 20 個裡面 15 個我看不出哪個比較好,5 個確定是 big5-uao 比較好。 .hk: 20 個裡面 5 個我看不出哪個比較好,15 個確定是 big5-hkscs 比較好。 (歡迎大家人肉把剩下的做完 :p) 我初步的結論是:zh-HK 和其他非 zh-TW 的瀏覽器可能把 big5 解讀成 big5-hkscs 真的比較好(畢竟 15 > 5 ,不過這裡相當有爭議,之後繼續討 論),當然,瀏覽器應該保有一個可以切換成 big5-uao 的選項(只是沒有 charset=XXX 可以啟動 big5-uao),輸出還是 CP950(單向 big5-hkscs)。zh- TW 瀏覽器則是用 Firefox 的:big5 解讀成 big5-uao,輸出 CP950。當然這邊還 有嗅探等等有的沒有的方案再繼續討論。 不過關於目前這個腳本,我發現抓下來的網頁裡面 big5-uao 和 big5-hkscs 的差 異裡*沒有日文的句子*。目前不太確定要怎麼解釋這個現象,當然有可能很單純的 只是日文的頁面都沒有進到這些網站的前 50 個頁面。所以我下一步打算: 從 Alexa 前一百萬個網站裡的 .tw/.hk 網站裡面每個各找 50 頁 改成從 Alexa 前兩萬個網站裡的 .tw/.hk 網站裡面每個各找 1,000 頁 之類的。 我想這也比較反應 PV 一點。不知道有沒有數據挖掘專家對這點有什麼看法? [1] http://www.w3.org/html/ig/zh/wiki/Big5-hkscs-vs-uao-in-hk [2] http://www.w3.org/html/ig/zh/wiki/Big5 此致 Kenny
Received on Tuesday, 17 April 2012 11:34:56 UTC