- From: Yuan Chao <yuanchao@gmail.com>
- Date: Thu, 19 Apr 2012 04:22:20 +0800
- To: "Kang-Hao (Kenny) Lu" <kennyluck@csail.mit.edu>
- Cc: Philip Jägenstedt <philipj@opera.com>, Chinese HTML Interest Group <public-html-ig-zh@w3.org>
On Thu, Apr 19, 2012 at 4:05 AM, Kang-Hao (Kenny) Lu <kennyluck@csail.mit.edu> wrote: > (12/04/19 1:01), Philip Jägenstedt wrote: >> • 298 pages with mixed/broken encodings >> • 190 pages that would yield U+FFFD with HKSCS, but instead produces >> bogus Chinese characters using UAO, some of them user-visible: > 提供一點考古方向:有些的編碼看起來是 big5-2003[1]、、、、、囧 照這樣子說來,以阿菲的這個方法,我們得到市占率最高的編碼竟然是big5-2003: 190 (big5-2003) >> 64 (big5-hkscs) ~ 47+3 (big5-uao) 這完全不符合我的使用體驗啊!(抱頭中) So we need another encoding entry: big5-2003... XD >> • http://domestic.mytour.com.tw/list.asp?id=721 (迳) > > 6. http://domestic.mytour.com.tw/list.asp?id=721 > > bytes: 84B3 > > hkscs: 不捨結束此行精采假期、踏上歸途<U+FFFD �>視情況休息<br>18:30~ > > uao: 不捨結束此行精采假期、踏上歸途<U+8FF3 迳>視情況休息<br>18:30~ > > 84B3 在 big5-2003 是 U+F0E0(PUA),在 Windows 上看起來是 U+2192(→ > RIGHTWARDS ARROW),但是兩個字形(glyph)並不一樣。 > > 其他 PUA 到正常字符的對應有些在[2]可以找到,有些只好、、、用 Unicode 搜 > 尋[3]找一個合適的字符出來了(囧)。 > >> • http://edu.uuu.com.tw/events/090619_ocpsummer_blueshop.htm (轩) >> • >> http://hi-taiwan.ecserver.com.tw/eip/front/bin/ptdetail.phtml?Part=teams0088 >> (启) > > 7. > http://hi-taiwan.ecserver.com.tw/eip/front/bin/ptdetail.phtml?Part=teams0088 > > bytes: 8451 > > hkscs: 光銘電 話:27314903 <U+FFFD �> 27755852 聯 絡 人 > > uao: 光銘電 話:27314903 <U+542F 启> 27755852 聯 絡 人 > > U+F0A0(PUA)→ U+25AA(▪ BLACK SMALL SQUARE) > >> • http://oa.mingdao.edu.tw/~foo/www9/fenyes/h41.htm (财) >> • http://service.cph.com.tw/act/ps921203/proudect01-12.htm (财轩) > > 「财」83DC → U+F06C(PUA)→ U+25CF(● BLACK CIRCLE) > 「轩」83DE → U+F06E(PUA)→ U+25A0(■ BLACK SQUARE) > > 其他「财」、「轩」應該都是這樣,但是我沒仔細確認。 > >> • http://w3.csmu.edu.tw/~jjyang/ (汹刍脉) > > 「汹」836E → U+F020(PUA)(看起來像是全形空白) > 「刍」83D1 解出來應該是某種 beta,但是這不合 big5-2003 給出的東西 > (U+FO61 看起來是 ♋) > 「脉」83D2 同樣 > >> • http://www.be-wells.com.tw/ascendancy/ascendancy_SE.php?page=5 (时) > > 「时」83BA → U+F04A(PUA)→ U+263A(☺ WHITE SMILING FACE) > > 場合合理,但是我也不是那麼肯定、、、 > >> • http://www.brain.com.tw/lecture/sale/sale_04.htm (阵) > > 「阵」83E5 → U+F075(PUA)→ U+25C6(◆ BLACK DIAMOND) > >> • http://www.chimei.com.tw/en/news-detail.asp?news_id=12 (毕) > > 「毕」8465 解出來應該是某種乘號,但是 big5-2003 給出的東西(U+F0B4)像是 > 一個三角形裡面有的問號。 > >> • http://www.flag.com.tw/book/5105.asp?bokno=FT476 (钉) > > 「钉」83E0 → U+F070(PUA)在 Windows 上看起來是 U+25FD(◽ WHITE MEDIUM > SMALL SQUARE) > >> • http://www.goprint.com.tw/draw.asp (妇) > > 「妇」83FC → U+F08C(PUA)→ U+2776(❶ DINGBAT NEGATIVE CIRCLED DIGIT ONE) > >> • http://www.iiiedu.org.tw/ites/PDPM.htm (贯) > > 「贯」84AB → U+F0D8(PUA)→ U+27A2(➢ THREE-D TOP-LIGHTED RIGHTWARDS > ARROWHEAD) > >> • http://www.kham.com.tw/ad.asp?P1=0000008355 (财) > > 已解:● > >> • http://www.misterdonut.com.tw/info/news.asp?id=267 (讫) >> • http://www.misterdonut.com.tw/info/news.asp?id=308 (讫) > > big5-2003 給出的東西(U+F06A)看起來有點怪、、、不過也不是說在這個場合不 > 適用,反正只是一個項目標記,[2]是說可以用 U+0026(& Ampersand)取代,步 > 過看起來不太像、、、 > >> • http://www.muonline.com.tw/Guide/GameSystem/07_pvp.asp (轩) > > 沒確認,估計就是已解的 ■ > >> • http://www.nacs.gov.tw/01_about >> /00_about_page.asp?ID=JNNORPIQJNMMK (枭) > > 「枭」8458 → U+F0A7(PUA)→ U+27A2(▪ BLACK SMALL SQUARE) > >> • http://www.nca.org.tw/chhtml/newsdetail.asp?NewsID=933& >> NewsGroup=4 (围轩) > > 「围」84CF → U+F0FC(PUA)→ U+2713(✓ CHECK MARK) > >> • http://www.neweb.com.tw/neweb-G_080808.htm (阵) > > 「阵」83E5 → U+F07B(PUA)→ U+2740(❀ WHITE FLORETTE) > >> • http://www.nordic.com.tw/client/festival/food02_3.htm (财) >> • http://www.nordic.com.tw/client/festival/food02_5.htm (财) >> • http://www.ogilvy.com.tw/Works/CaseContent.asp?serial=71 (迳) > > 沒確認這些,不過上面都有了。 > >> • http://www.pccu.edu.tw/intl/page/english/english.htm (丗) > > 「丗」8140 → U+EEB8(PUA) 這個區域的看起來都像是全形空白、、、 > >> • http://www.pycnogenol.com.tw/info.htm (钓) > > 「钓」84B5 → U+F0E0(PUA),在 Windows 上看起來是 U+2193(↓ DOWNWARDS > ARROW),在這個場合可能是指下載的意思?步太確定、、、 > >> • http://www.songyan.com.tw/distribution.html (迳) > > 沒確認,估計就是已解的 → > >> • http://www.srbook.com.tw/show_book.htm?wno=9868017645 (间) > > 「间」857D 解出來應該是句號,但是 big5-2003 給出的東西(U+F169)的這個區 > 域的看起來都像是全形空白、、、 > >> • http://www.transglobe.com.tw/product/product-insurance-DSC.shtml >> (贯) >> • http://www.ukeas.com.tw/postgrad/university/exeter.htm (财) >> • http://www.wintan.com.tw/service_06_08.htm (迳) >> • https://freenet.smartnet.com.tw/product-item.php?sn=9322 (财轩) > > 沒確認這些,不過上面都有了。 > >> Using Big5-UAO for Taiwanese sites would give mixed results. Correctly >> encoded Big5-UAO is very rare, so the tested mapping (Firefox) >> introduces almost as many user-visible misencodings as it fixes and >> masks many others. > > 我不知道該說什麼才好了,感覺為 Big5-UAO 把 big5-2003 的東西加回去一些可 > 以解決很大部份,另外,上面這些字都不是日文漢字,所以也不影響我對 Big5- > UAO 的要求 :p,有人知道這部份的編碼對應是在可以動手術的範圍還是不行? > > > [1] http://moztw.org/docs/big5/table/big5_2003-b2u.txt > [2] > http://opensource.apple.com/source/groff/groff-28/groff/font/devlj4/generate/wingdings.map > [3] http://unicode-search.net/ > > > > 此致 > > Kenny > > -- Best regards, Yuan Chao
Received on Wednesday, 18 April 2012 20:23:15 UTC