- From: Bob Chao <bobchao@gmail.com>
- Date: Tue, 17 Apr 2012 19:40:46 +0800
- To: "Kang-Hao (Kenny) Lu" <kennyluck@csail.mit.edu>
- Cc: W3C HTML5 中文興趣小組 <public-html-ig-zh@w3.org>, Philip Jägenstedt <philipj@opera.com>
- Message-ID: <81F56CF71E8549D4BF21501C08DFD81F@gmail.com>
或許開個 Google spreadsheet 大家上去幫忙人肉比對一下? 還是你覺得 1000 個很快? XD ~Bob -- Chao Po-chiang [:bobchao] Mozillian, Creative Commoner, UX Ninja wannabe. http://blog.bobchao.net On 2012年4月17日Tuesday at 下午7:34, Kang-Hao (Kenny) Lu wrote: > (12/04/16 3:11), Philip Jägenstedt wrote: > > In English, since the methods used will be of interest also to Anne van > > Kesteren and possibly others. > > > > My goal was to find a big and representative sample of Big5 usage on > > Taiwan. Alexa's top million sites [1] lists 2951 .tw sites. Using > > "site:example.com.tw" searches for all of those using the Bing API [2] > > generated a list of ~120k URLs.[3] ~116k of those were successfully > > fetched using a Python script.[4] Another script [5] identified ~38k of > > them labeled as Big5 and decoded them using the spec algorithm to > > collect statistics. A final script [6] filtered out ~36k pages with low > > error rates to exclude misencodings, which is as close to a random > > sample of Taiwanese Big5 pages that I can get. > > > > The same script identified the pages that would yield different results > > with the spec mapping (~HKSCS) and the firefox mapping (~UAO), finding > > 294 such pages. Manually removing obvious misencoded nonsense left 190 > > which will need more analysis.[7] My initial impression is that a lot of > > these pages are likely to be garbage, but there are some which are > > obviously Big5-UAO... > > > > > (依樣畫葫蘆用阿菲的腳本跑了一下 .hk 的網站,聽說阿菲也在做同樣的事、、、) > > .hk 站數: 975 > Bing API 抓的 URL: ~33k > 成功下載: ~32k > big5/big5-hkscs 頁面: ~6k > > UAO 和 HKSCS 不合[1]的有: 387,其中 317 個是標成 big5,只有 70 個標成 > big5-hkscs。 > > 我人肉分類了阿菲上面的 190 個裡面的最後 20 個和這 317 個裡面的最後一個, > 結果[2]如下: > > .tw: 20 個裡面 15 個我看不出哪個比較好,5 個確定是 big5-uao 比較好。 > .hk: 20 個裡面 5 個我看不出哪個比較好,15 個確定是 big5-hkscs 比較好。 > > (歡迎大家人肉把剩下的做完 :p) > > > 我初步的結論是:zh-HK 和其他非 zh-TW 的瀏覽器可能把 big5 解讀成 > big5-hkscs 真的比較好(畢竟 15 > 5 ,不過這裡相當有爭議,之後繼續討 > 論),當然,瀏覽器應該保有一個可以切換成 big5-uao 的選項(只是沒有 > charset=XXX 可以啟動 big5-uao),輸出還是 CP950(單向 big5-hkscs)。zh- > TW 瀏覽器則是用 Firefox 的:big5 解讀成 big5-uao,輸出 CP950。當然這邊還 > 有嗅探等等有的沒有的方案再繼續討論。 > > > 不過關於目前這個腳本,我發現抓下來的網頁裡面 big5-uao 和 big5-hkscs 的差 > 異裡*沒有日文的句子*。目前不太確定要怎麼解釋這個現象,當然有可能很單純的 > 只是日文的頁面都沒有進到這些網站的前 50 個頁面。所以我下一步打算: > > 從 > > Alexa 前一百萬個網站裡的 .tw/.hk 網站裡面每個各找 50 頁 > > 改成從 > > Alexa 前兩萬個網站裡的 .tw/.hk 網站裡面每個各找 1,000 頁 > > 之類的。 > > 我想這也比較反應 PV 一點。不知道有沒有數據挖掘專家對這點有什麼看法? > > > [1] http://www.w3.org/html/ig/zh/wiki/Big5-hkscs-vs-uao-in-hk > [2] http://www.w3.org/html/ig/zh/wiki/Big5 > > > 此致 > > Kenny
Received on Tuesday, 17 April 2012 11:41:24 UTC