(wrong string) 關於Big5和Big5-HKSCS(wrong string) 問 題

2012/4/15 Ambrose LI <ambrose.li@gmail.com>

> (在公立图书馆只能打简体中文)
>
> 这个我也同意,只是我个人仍然是觉得这是一种不幸,因为香港写的文章内提到一些台湾的词语,正确来说哪一个词语就应该标成lang=zh-TW,反过来说,台湾写的文章内提到一些香港的词语,正确来说哪一个词语也应该标成lang=zh-HK。(同样,中国大陆的专用词语在香港或是台湾的文章内出现,正确来说,即使使用繁体字写出来,也应该是zh-CN。)
>

这个并不影响啊。算法只看root元素上的lang属性。下面的元素上仍然可以正确的标记不同的语言。如zh-cmn-Hant-TW或zh-yue-Hant-HK或zh-cmn-Hans-CN等等。题外话,我并不认为一定要标记语言属性,中文的各种方言本来就是互相融合的。除非是有特别的意义,比如产生歧义或者强调是地方特定的用语。


>
> 中文搞成这样,是最初把编码和语言搞混了,现在要改也不行了 :-(
>

这也不是中文独特的问题。比如日文也有好些坑爹的编码问题。还有<meta
charset>中的charset或者content-type头中的charset本来就应该是encoding,明显老外一开始也搞错了,现在也改不了了。

再说meta
charset原本就是一个编码提示而已,最终采用何种encoding仍然有复杂的算法。所以将charset=big5理解为一个需要进一步处理的提示,也不算搞特例嘛。类似的charset=gb2312其实也应该理解为一个提示,实际文档极有可能是按照gbk进行编码的,而且浏览器似乎也都是按照gbk或gb18030解码的。big5的例子只是比gb系列要更复杂一点而已。

Received on Saturday, 14 April 2012 18:14:17 UTC