W3C home > Mailing lists > Public > public-html-ig-zh@w3.org > April 2012

Re: 臺灣和香港Big5 HKSCS vs UAO分析和結論

From: Yuan Chao <yuanchao@gmail.com>
Date: Sat, 21 Apr 2012 09:49:42 +0800
Message-ID: <CAADKi7nLOiRB3qMWg15heaEhyirKJKA_SFC7FUYf_=PSeLxhqg@mail.gmail.com>
To: Philip Jägenstedt <philipj@opera.com>
Cc: "Kang-Hao (Kenny) Lu" <kennyluck@csail.mit.edu>, Chinese HTML Interest Group <public-html-ig-zh@w3.org>
2012/4/21 Philip Jägenstedt <philipj@opera.com>:
>> (12/04/19 1:01), Philip Jägenstedt wrote:

>>>  • 298 pages with mixed/broken encodings
>>>   • 190 pages that would yield U+FFFD with HKSCS, but instead produces
>>> bogus Chinese characters using UAO, some of them user-visible:
Phillip, which OS are you using? To me, they are all visible as
squares with code
ID in it with HKSCS under Ubuntu!

> On Wed, 18 Apr 2012 22:05:22 +0200, Kang-Hao (Kenny) Lu
>> 提供一點考古方向:有些的編碼看起來是 big5-2003[1]、、、、、囧

>> 6. http://domestic.mytour.com.tw/list.asp?id=721
>> hkscs: 不捨結束此行精采假期、踏上歸途<U+FFFD �>視情況休息<br>18:30~
>> uao:   不捨結束此行精采假期、踏上歸途<U+8FF3 迳>視情況休息<br>18:30~
>>
>> 84B3 在 big5-2003 是 U+F0E0(PUA),在 Windows 上看起來是 U+2192(→
>> RIGHTWARDS ARROW),但是兩個字形(glyph)並不一樣。
> 有可能,不過<U+3001 IDEOGRAPHIC COMMA 、>或者<U+FF0C FULLWIDTH COMMA ,>好像更好。
I would tend to "→" here. (as supply info, we don't use comma as parentheses)

>> 其他 PUA 到正常字符的對應有些在[2]可以找到,有些只好、、、用 Unicode 搜
>> 尋[3]找一個合適的字符出來了(囧)。
>>>     • http://edu.uuu.com.tw/events/090619_ocpsummer_blueshop.htm (轩)
> 這個「轩」明明是亂碼,什麼也不如U+FFFD。
This should be tailing garbage.

>>> http://hi-taiwan.ecserver.com.tw/eip/front/bin/ptdetail.phtml?Part=teams0088
>>> (启)
>> http://hi-taiwan.ecserver.com.tw/eip/front/bin/ptdetail.phtml?Part=teams0088
>>
>> bytes: 8451
>>
>> hkscs: 光銘電 話:27314903 <U+FFFD �> 27755852 聯 絡 人
>> uao:   光銘電 話:27314903 <U+542F 启> 27755852 聯 絡 人
>>
>> U+F0A0(PUA)→ U+25AA(▪ BLACK SMALL SQUARE)
> 某種標點符號更合適吧?
A separator like U+25AA suits here to me.

>>>     • http://oa.mingdao.edu.tw/~foo/www9/fenyes/h41.htm (财)
>>>     • http://service.cph.com.tw/act/ps921203/proudect01-12.htm (财轩)

>> 「财」83DC → U+F06C(PUA)→ U+25CF(● BLACK CIRCLE)
>> 「轩」83DE → U+F06E(PUA)→ U+25A0(■ BLACK SQUARE)
>>
>> 其他「财」、「轩」應該都是這樣,但是我沒仔細確認。

> 在service.cph.com.tw這麼映射可以,可是第一個更像亂碼。
Actually, for the first case, it looks like a redundant item marker as
the case below.

>>>     • http://w3.csmu.edu.tw/~jjyang/ (汹刍脉)
>> 「汹」836E → U+F020(PUA)(看起來像是全形空白)
>> 「刍」83D1 解出來應該是某種 beta,但是這不合 big5-2003 給出的東西
>> (U+FO61 看起來是 ♋)
>> 「脉」83D2 同樣
> 明顯是亂碼,最好還是U+FFFD。
These should be wrong mapping when copy from tex pdf.

>>>     • http://www.be-wells.com.tw/ascendancy/ascendancy_SE.php?page=5 (时)
>> 「时」83BA → U+F04A(PUA)→ U+263A(☺ WHITE SMILING FACE)
> 更有可能是亂碼吧?
Conflicts with extended ascii?

>> 場合合理,但是我也不是那麼肯定、、、
>>>     • http://www.brain.com.tw/lecture/sale/sale_04.htm (阵)
>> 「阵」83E5 → U+F075(PUA)→ U+25C6(◆ BLACK DIAMOND)
> 我很懷疑,全形空白不是更好嗎?
Should be redundant item marker.

>>>     • http://www.chimei.com.tw/en/news-detail.asp?news_id=12 (毕)
>> 「毕」8465 解出來應該是某種乘號,但是 big5-2003 給出的東西(U+F0B4)像是
>> 一個三角形裡面有的問號。
> 應該是亂碼……
A poor conversion from iso-8859-1.

>>>     • http://www.flag.com.tw/book/5105.asp?bokno=FT476 (钉)
>> 「钉」83E0 → U+F070(PUA)在 Windows 上看起來是 U+25FD(◽ WHITE MEDIUM
>> SMALL SQUARE)

> 應該是全形空白或者某種項目符號吧?
U+25FD can be an item marker.


>>>     • http://www.goprint.com.tw/draw.asp (妇)
>> 「妇」83FC → U+F08C(PUA)→ U+2776(❶ DINGBAT NEGATIVE CIRCLED DIGIT ONE)
> 不太合適,大概是亂碼。
Actually Google say it's correct!
https://www.google.com/search?ie=UTF-8&oe=UTF-8&q="繪圖軟體教學" "photoshop基礎教學"

=>繪圖軟體教學—Photoshop實作教學(一)

>>>     • http://www.iiiedu.org.tw/ites/PDPM.htm (贯)
>> 「贯」84AB → U+F0D8(PUA)→ U+27A2(➢ THREE-D TOP-LIGHTED RIGHTWARDS
>> ARROWHEAD)
> 看上下文估計原來應該是普通的空白。
Probably typo?

>>>     • http://www.kham.com.tw/ad.asp?P1=0000008355 (财)
>> 已解:●
> 在句末不太合適啊……
Should be the redundant item marker of the next line head. (ex. copy
from ms word)

>>>     • http://www.misterdonut.com.tw/info/news.asp?id=267 (讫)
>>>     • http://www.misterdonut.com.tw/info/news.asp?id=308 (讫)
>> big5-2003 給出的東西(U+F06A)看起來有點怪、、、不過也不是說在這個場合不
>> 適用,反正只是一個項目標記,[2]是說可以用 U+0026(& Ampersand)取代,步
>> 過看起來不太像、、、
> 哦,全形空白或項目標記。
Should be item marker

>>>     • http://www.muonline.com.tw/Guide/GameSystem/07_pvp.asp (轩)
>> 沒確認,估計就是已解的 ■
> 我看應該是亂碼。

>>>     • http://www.nacs.gov.tw/01_about
>>> /00_about_page.asp?ID=JNNORPIQJNMMK (枭)
>> 「枭」8458 → U+F0A7(PUA)→ U+27A2(▪ BLACK SMALL SQUARE)
> 可能,全形空白或項目標記。

>>>     • http://www.nca.org.tw/chhtml/newsdetail.asp?NewsID=933&
>>> NewsGroup=4 (围轩)
>> 「围」84CF → U+F0FC(PUA)→ U+2713(✓ CHECK MARK)
> 這些都像全形空白或者亂碼。

>>>     • http://www.neweb.com.tw/neweb-G_080808.htm (阵)
>> 「阵」83E5 → U+F07B(PUA)→ U+2740(❀ WHITE FLORETTE)
> 沒法確認,有可能是吧。

>>>     • http://www.nordic.com.tw/client/festival/food02_3.htm (财)
>>>     • http://www.nordic.com.tw/client/festival/food02_5.htm (财)
>>>     • http://www.ogilvy.com.tw/Works/CaseContent.asp?serial=71 (迳)
>> 沒確認這些,不過上面都有了。
Should be also the redundant marker of the next line.

> nordic.com.tw的「财」應該是亂碼,而ogilvy.com.tw的「迳」應該是某種標點符號。
ordered listed items, → is very reasonable.

>>>     • http://www.pccu.edu.tw/intl/page/english/english.htm (丗)
>> 「丗」8140 → U+EEB8(PUA) 這個區域的看起來都像是全形空白、、、
>>>     • http://www.pycnogenol.com.tw/info.htm (钓)
> 在頁面最後應該是亂碼……

>> 「钓」84B5 → U+F0E0(PUA),在 Windows 上看起來是 U+2193(↓ DOWNWARDS
>> ARROW),在這個場合可能是指下載的意思?步太確定、、、
>>
>>>     • http://www.songyan.com.tw/distribution.html (迳)

>> 沒確認,估計就是已解的 →

> 合適!
>
>
>>>     • http://www.srbook.com.tw/show_book.htm?wno=9868017645 (间)
>>
>>
>> 「间」857D 解出來應該是句號,但是 big5-2003 給出的東西(U+F169)的這個區
>> 域的看起來都像是全形空白、、、
>
>
> 最合適還是「。」
>
>
>>>     • http://www.transglobe.com.tw/product/product-insurance-DSC.shtml
>>> (贯)
>>>     • http://www.ukeas.com.tw/postgrad/university/exeter.htm (财)
>>>     • http://www.wintan.com.tw/service_06_08.htm (迳)
>>>     • https://freenet.smartnet.com.tw/product-item.php?sn=9322 (财轩)
>>
>>
>> 沒確認這些,不過上面都有了。
>
>
> 我覺得只有「财」和「轩」合適……
>
>
>>> Using Big5-UAO for Taiwanese sites would give mixed results. Correctly
>>> encoded Big5-UAO is very rare, so the tested mapping (Firefox)
>>> introduces almost as many user-visible misencodings as it fixes and
>>> masks many others.
>>
>>
>> 我不知道該說什麼才好了,感覺為 Big5-UAO 把 big5-2003 的東西加回去一些可
>> 以解決很大部份,另外,上面這些字都不是日文漢字,所以也不影響我對 Big5-
>> UAO 的要求 :p,有人知道這部份的編碼對應是在可以動手術的範圍還是不行?
>
>
> 按照上面的,用Big5-2003並不是很完美的。MozTW的映射好像不是完全可靠,所以我不知道該根據什麼去定義Big5-UAO。
>
> 問題的範圍畢竟是0.043%的臺灣網頁的幾個字符。現代的瀏覽器只有Firefox能顯示,而且他們的映射還造成別的問題……
>
> 在這種情況下,我覺得嘗試跟受影響的網站聯繫還是有希望。反正這是唯一的辦法能夠讓香港和國際的用戶也看得到。
I don't know... to me the original thought of big5-hkscs doesn't seem
to dominate, and looks
like big5-uao is not dominate either according to "bing". (I just
realize that our
"frequent-visit-sites" with big5-uao are not under "*.tw". Some of my
treasure sites can
only be found in internet-archive now) To my surprise is that there
are quite a lot of cases can
be explained with big5-2003 PAU though. (probably to Kenny too) At
least HK friends can
live with a hack in firefox to force big5-hkscs=big5; ie is ok if the
official patch installed (the
font with extended glyphs is needed for up to win xp). I'm curious
about the browser share
in HK?


-- 
Best regards,
Yuan Chao
Received on Saturday, 21 April 2012 01:50:36 UTC

This archive was generated by hypermail 2.3.1 : Tuesday, 6 January 2015 20:43:50 UTC