(wrong string) 種平面（non-BMP锛夊瓧绗︽敮鎻� 锛堝師: 瀛楃缂栫爜锛� from John Hax on 2011-06-08 (public-html-ig-zh@w3.org from June 2011)

From: John Hax <johnhax@gmail.com>
Date: Thu, 9 Jun 2011 00:41:45 +0800
To: Timothy Chien <timdream@gmail.com>
Cc: "Kang-Hao (Kenny) Lu" <kennyluck@w3.org>, 中文HTML5同??ML <public-html-ig-zh@w3.org>
Message-ID: <BANLkTimAkyDsBCY1wCZTJbZoKHx9N2rFUg@mail.gmail.com>
twitter鍋氳繖涓簨鎯呮樉鐒跺彧鏄洜涓衡€滃ソ鐜┾€濆惂銆傚€掓槸鏂版氮寰崥涔嬬被鐨勫簲璇ヨ鐪熻€冭檻鍔犲叆杩欎釜璁＄畻锛屽洜涓烘棦鐒惰嫳鏁扮畻鍗婁釜锛堝崐瑙掔殑鎰忔€濓級銆�

2011/6/8 Timothy Chien <timdream@gmail.com>

> 1. 鎴戜竴瀹氳鐗瑰垾鎸囧嚭渚嗕互琛ㄩ仈鎴戝皪 Twitter 绔熺劧鏈夎€冩叜閫欏€嬫澅瑗跨殑闇囬
>
> 2. str.codePointCount() 鍙互鐢� String.prototype 瀵﹀仛鍚э紵Kenny 瀵€� library
> 涓熷嚭渚嗗惂锛屽摢澶╃湡鐨勫ぇ瀹惰寰椾笉澶犲揩灏辨渻琚€忚鍣ㄥ鍋氫簡锛�
> 锛圝SON锛宎rr.forEach ... 绛夌瓑濂藉儚閮芥槸閫欐ǎ琚鍋氱殑锛燂級
>
> > HTML5 瑕忕瘎鐨� 4.1.1 [4] 鎻愬埌锛岃叧鏈殑绶ㄧ⒓鍒ゆ柗鐨勫劒鍏堝簭鏄細
> > 鑵虫湰鐨� "Content-Type" 妯欓牠 > charset > HTML 鐨勭法纰硷紙鑻ュ畬鍏ㄦ矑鏈変换浣曡硣鏂欑殑瑭辩箒楂斾腑鏂囩殑鐎忚鍣� 鐢�
> Big5锛岀啊楂斾腑鏂囩敤 GB18030锛�
>
> 3. 鏈€寰岀殑锛堬級鏈夎锛屻€孒TML 鐨勭法纰笺€嶅氨鏄� .html 妾旀鐨勭法纰硷紝璺熺€忚鍣ㄧ殑瑾炶█鐒￠棞銆�
> 鍗充究鐎忚鍣ㄧ殑瑾炶█鏄箒涓篃涓嶄竴瀹氭渻鎶婃渶寰岀殑闋愯ō鍊艰ō鍦� Big5锛屽儚鎴戝湪 Fx3.6 鐨勬檪鍊欏氨鎶婂畠鏀规垚 UTF-8 浜嗭紙鐐轰簡鍜岃嫳鏂囩増琛岀偤鐩稿悓锛�
>
> 4. 璐婃垚妯欐簴瀵︿綔鍏у祵绶ㄧ⒓锛屽劒鍏堥爢搴忓彲浠ユ敼鎴�
>     鑵虫湰鐨� "Content-Type" 妯欓牠 > 鍏у祵绶ㄧ⒓ > charset > HTML 鐨勭法纰�
> 涓嶇劧姣忔閮借鎶婁腑鏂囧瓧鏀规垚 \x12ab 鐪熺殑寰堢叐....
>
> RFC2616 閭ｇó鍟忛鏄洜鐐虹暥鍒濆妯欐簴鐨勬檪鍊欐矑鎯虫竻妤氾紝瀵﹀仛浜嗗弽鑰屾渻鏈夊晱椤屻€傚鍋� Unicode 鎳夎┎涓嶆渻鏈夊晱椤屽惂锛堟矑铏曠悊濂藉彲鑳芥渻灏庤嚧鐩稿鍟忛灏辨槸锛夈€�
>
>
> 2011/6/8 Kang-Hao (Kenny) Lu <kennyluck@w3.org>:
> > 鍋氫簡涓€榛炲椹� 琛屽収鍥炴枃
> >
> > 2011/5/9 Timothy Chien <timdream@gmail.com>:
> >
> > 閭ｆ槸瑷樻喍楂斿収閮ㄨ檿鐞嗘枃瀛楃殑妯欐簴鍚э紵鑸囨獢妗堢殑绶ㄧ⒓鐒￠棞銆�
> > 鎰忔€濇槸瑾紝
> >
> > ('瀛�').charCodeAt(0)
> >
> > 鏈冨偝鍥� UCS-2 code point銆�
> >
> > 鎴戠敤閫欏€嬪瓧瑭︿簡骞剧殑鐎忚鍣細
> >
> > 銆岎爞囥€� U+20087 &#131207;
> > 浠ｇ悊灏嶏紙surrogate pair锛夛細 D870 DC87
> > 鍗侀€蹭綅锛� 55360 56455
> >
> > 锛堜笉瑕佸晱鎴戦€欏€嬪瓧鏄粈楹硷紝闅ㄤ究鎵剧殑銆傛垜鍙煡閬撻€欏瓧璁撴垜鎯冲埌濞滅編锛堛儕銉燂級xd锛�
> >
> > 鍩烘湰涓� Firefox, Chrome, Safari 閮借 "馉倗".length = 2
> >
> > 涓嶄俊鐨勫湪鐎忚鍣� URL 姊濇墦 銆宩avascript:alert("馉倗".length)銆� 瑭﹁│鐪�
> >
> >
> > 姣旇純鏈夎叮鐨勬槸锛孴witter 鍦ㄩ偅鍊嬮檺鍒惰几鍏� 140 瀛楃殑鍋氭硶绔熺劧鎶� "馉倗"  鐨勯暦搴︾畻灏嶆垚 1 浜嗐€備粬鍊戠殑婧愮⒓鏄€欐ǎ瀵殑锛�
> >
> > displayLength:function(string){
> >   if(typeof string!=="string"){throw new Error("displayLength() requires
> a
> > single input of type string")}
> >   var i=0,length=0;
> >   var getWholeChar=function(str,i){
> >     var code=str.charCodeAt(i);
> >     var next="",prev="";
> >     if(55296<=code&&code<=56319){
> >       if(str.length<=(i+1)){throw"High surrogate without following low
> > surrogate"}
> >       next=str.charCodeAt(i+1);
> >       if(56320>next||next>57343){throw"High surrogate without following
> low
> > surrogate"}
> >       return str.charAt(i)+str.charAt(i+1)}
> >     else{
> >       if(56320<=code&&code<=57343){
> >         if(i===0){throw"Low surrogate without preceding high surrogate"}
> >         prev=str.charCodeAt(i-1);
> >       if(55296>prev||prev>56319){throw"Low surrogate without preceding
> high
> > surrogate"}
> >       return false}}
> >     return str.charAt(i)
> >   };
> >   for(i=0,length=0;i<string.length;i++){
> >     if(getWholeChar(string,i)===false){continue}
> >     length++
> >   }
> > return length} 锛堢増娆婃墍鏈� Twitter锛屽仛閫欑ó浜嬫湁鐘硶鐨勮┍楹荤叐绉佷笅鎸囬粸涓€涓嬨€併€併€侊級
> >
> > 涔熷氨鏄浠栨湁鐗瑰湴鍘昏檿鐞嗕唬鐞嗗皪鐨勬儏褰€€傦紙闆栫劧鍏跺鎴戜笉澶悊瑙ｇ偤浠€楹� Twitter 灏嶄笉鍚岃獮瑷€鍚屾ǎ鏄檺鍒� 140 瀛� xdd锛�
> >
> > 鏂版氮寰崥鎵� "馉倗" 閫欏€嬪瓧鐨勮┍灏辨渻浣斿叐鍊嬪墿涓嬪瓧鏁革紝閭ｈ窡 "馉倗".match(/[^\x00-\x80]/g).length = 2 鑰屼笉鏄� 1
> > 鏈夐棞锛屼笉閬庢柊娴井鍗氶倓鏈変竴浜涘緢濂囨€殑鐝捐薄锛堢┖鐧戒笉鍗犲瓧鏁搞€佽嫳瀛楀崰鍗婂€嬶級涔嬮鐨勶紝鎵€浠ラ€欑ó灏忓湴鏂逛技涔庝篃涓嶉渶瑕佸湪鎰忎簡銆�
> >
> >
> > 鍓╀笅鐨勫晱椤屽氨鏄紝鏈夋矑鏈夊繀瑕佺偤閫欑ó姣旇純缃曡鐨勬儏褰㈠紕鍑烘柊鐨� JavaScript API 锛圗CMAScript6锛燂級
> > 姣斿瑾湪 Java 瑁★紝闄や簡 length 浠ュ閭勬湁 codePointCount銆乧odePoint 閫欎簺鏂规硶[1]锛�
> >
> > String s = "馉倗";
> > System.out.println(s.length()); //椤ず鐐� 2
> > System.out.println(s.codePointCount(0, s.length())); //椤ず鐐� 1
> > System.out.println(s.codePointAt(0)); // 椤ず鐐� 131207 涔熷氨鏄� "馉倗" 鐨勫€�
> > System.out.println(s.codePointAt(1)); // 椤ず鐐� 56455 涔熷氨鏄� "馉倗" 鐨勫緦鍗婇儴
> >
> > 涔熷氨鏄 codePointAt(N) 涓嶆槸绗� N 鍊嬪瓧绗︼紝鑰屾槸銆岃嫢绗� N 鍊� 16-bit
> > 鏄煇鍊嬩唬鐞嗗皪鐨勫墠鍗婇儴锛岃几鍑烘暣鍊嬪瓧銆嶏紝鏄竴鍊嬩笉闇€瑕佹巸鎻忔暣鍊嬪瓧涓茬殑鏂瑰紡銆�
> >
> > [1]
> http://download.oracle.com/javase/1,5.0/docs/api/java/lang/String.html
> >
> >
> > 閫欏€嬪晱椤屽ソ鍍忓湪 3 骞村墠鍦� Python 绀剧兢涔熻珫鎴伴亷[2]锛屾湁浜涗汉甯屾湜锛�
> >
> > s = "馉倗"
> > len(s) // 杓稿嚭鐐� 1
> >
> > 鏍稿績绀剧兢鐨勫洖绛旀槸銆屾兂閮藉垾鎯炽€嶏紙鐝惧湪鏄� 2锛夛紝浣嗘槸鏍稿績绀剧兢鍙互鎺ュ彈璺� Java 涓€妯ｅ涓€鍊� API锛堜笉閬庝技涔庨倓娌掓湁浜烘湁璨㈢嵒 :( 锛�
> >
> > [2]
> http://mail.python.org/pipermail/python-dev/2008-July/thread.html#80886
> >
> >
> > 鍥炲埌 JavaScript锛屼竴鑸締瑾紝鐐轰簡鍚戝緦鏀彺 "馉倗".length 鎴栨槸 "馉倗".charCodeAt(0)
> > 涔嬮鐨勮鏀逛篃鏄€屾兂閮藉垾鎯炽€嶃€備笉閬庢垜鍊戞湁 "馉倗".codePointCount 璺� String.prototype.codePointAt(N)
> > 鐨勯渶姹傚棊锛熼€欏€嬮渶姹傛湁澶犲ぇ鍡庯紵
> >
> > codePointCout 鐨勫ソ铏曠暥鐒跺氨鏄敤鐎忚鍣ㄧ殑 C++ code 姣� Twitter 閭ｅ€嬪揩锛岃€� codePointAt 灏辨槸
> timdream
> > 鎵惧埌鐨� JavaScript code
> >
> > 涓嶉亷寰屾灉灏辨槸 UCS-2 濉炰笉閫插幓鐨� Unicode code point锛屽儚鏄� Ext-B 鐨勬饥瀛楋紝
> > 鍦� Javascript 瑁￠潰鏈冭鎷嗘垚鍏╁€嬪瓧鍏冿紝閫欐檪瑕佹壘鍒扮湡姝ｇ殑 Unicode code point 灏辫鎶婂叐鍊嬪瓧鍏冪殑瀛楃⒓閮借畝鍑轰締铏曠悊锛�
> >
> >
> https://developer.mozilla.org/en/JavaScript/Reference/Global_Objects/String/charCodeAt#Example_2.3a_Fixing_charCodeAt_to_handle_non-Basic-Multilingual-Plane_characters_if_their_presence_earlier_in_the_string_is_unknown
> >
> > 鐨� C++ 鐗堟湰
> >
> > (11/05/09 11:05), Ben Luo wrote:
> >
> > 閭ｄ篃灏辨槸璇� browser 鍦ㄨ浇鍏s鏂囦欢鐨勬椂鍊欎細鑷姩杞崲鎴� UCS-2锛熷畠鏄€庝箞鑷姩鍒ゆ柇鏂囦欢鏈韩鐨勭紪鐮佸憿锛�
> >
> > 2011/5/9 Timothy Chien <timdream@gmail.com>:
> >
> > <script type="text/javascript" src="script.js" charset="utf-8" ></script>
> >
> > 鏍规摎 HTML4 妯欐簴瑷畾 charset 灞€�
> > http://www.w3.org/TR/html401/interact/scripts.html#edef-SCRIPT
> >
> > HTML5 瑁￠潰涔熸湁 閫欏€嬪爆鎬�
> >
> http://www.whatwg.org/specs/web-apps/current-work/multipage/scripting-1.html#attr-script-charset
> > 鍒伴€欒！鐐烘锛屽彲浠ュ垽鏂烽€欏€嬪爆鎬ц嚦灏戝湪鏈締鍙互鐢ㄣ€�
> >
> > 涓嶉亷鎴戜笉鐭ラ亾鍝鐎忚鍣ㄥ悆灏辨槸浜嗐€�
> >
> > 娓│浜嗕竴涓� Firefox4 璺� Chrome11 閮藉彲浠ョ敤銆傚鏋滄垜鏈夊涓€榛炲媷姘ｇ浉淇� W3school
> > 鐨勫収瀹筟3]鎴戝氨涓嶉渶瑕佽鍋氭脯瑭︿簡锛岄€欎技涔庢槸瀛樺湪寰堜箙鐨勬澅瑗夸簡銆�
> >
> > [3] http://www.w3schools.com/tags/att_script_charset.asp
> >
> > 鏈€淇濋毆鐨勫仛娉曟槸淇濇寔鍜屽紩鐢ㄧ殑 HTML 鍚屾ǎ鐨� encoding锛�
> >
> > HTML5 瑕忕瘎鐨� 4.1.1 [4] 鎻愬埌锛岃叧鏈殑绶ㄧ⒓鍒ゆ柗鐨勫劒鍏堝簭鏄細
> >
> > 鑵虫湰鐨� "Content-Type" 妯欓牠 > charset > HTML 鐨勭法纰硷紙鑻ュ畬鍏ㄦ矑鏈変换浣曡硣鏂欑殑瑭辩箒楂斾腑鏂囩殑鐎忚鍣� 鐢�
> Big5锛岀啊楂斾腑鏂囩敤
> > GB18030锛�
> >
> > 鎵€浠ラ€欏€嬫柟娉曡纰轰繚浼烘湇鍣ㄤ笉鏈冧簜鍌� "Content-Type"銆�
> >
> > [4]
> >
> http://www.whatwg.org/specs/web-apps/current-work/multipage/scripting-1.html#execute-the-script-block
> >
> > 鎴栨槸鍙鐢ㄥ埌 ASCII 浠ュ鐨勫瓧鍏冮€氶€氱敤 \x12ab 渚嗚〃绀恒€�
> > 锛堝 script 涔熶笉瑭插嚭鐝鹃偅浜涗粙闈㈢敤鏂囧瓧锛屼粙闈㈠瓧涓茶硣婧愬拰绋嬪紡鎳夎┎瑕佸垎闁嬶級
> >
> > 閫欏€嬫柟娉曚技涔庢瘮杓冧繚闅紝涓嶉亷涓嶆兂鍋氳嫳鏂囩晫闈㈢殑鏅傚€欐湁鏅傚€欒鍒嗛枊瀛椾覆璺熺▼寮忓緢楹荤叐鐨勩€�
> >
> > (11/05/09 12:12), Ben Luo wrote:
> >
> > 褰撶劧杩欏拰 html5 鏃犲叧锛屽彧鏄ソ濂囷紝涓轰粈涔圝S鍙瀹氬唴閮ㄧ紪鐮侊紝涓嶈瀹氭枃浠剁紪鐮侊紝姣曠珶JS涓嶆槸鍑┖鐢熶骇鐨勩€�
> >
> > 鎴戞兂涓昏鏄笉瀵﹂殯鐨勯棞淇傦紝澶у閮界煡閬� JS 鏈€涓昏鐨勭敤鎴朵唬鐞嗭紙user agent锛夊氨鏄€忚鍣紝鑰岀€忚鍣ㄤ竴瀹氭渻姹哄畾涓€鍊� HTML 鐨勭法纰艰€� JS
> > 鐨勯爯瑷枃浠剁法纰煎氨鏈冩槸閭ｅ€嬶紝灏辩畻鍦� JS 鐨勮绡勫畾缇╀簡涓€鍊嬮爯瑷殑绶ㄧ⒓涔熷彲鑳芥渻琚� HTML
> > 鐨勭法纰艰搵鎺夛紝灏辨矑鏈夐偅鍊嬮爯瑷法纰肩殑鎰忕京浜嗐€傚彟涓€鏂归潰锛岃鎶婁笂闈㈡彁鐨勫劒鍏堥爢搴忓閫� JS 鐨勮绡勭殑瑭卞氨鏈冭畩鎴� JS 渚濆瓨鏂� HTTP 鍙� HTML
> > 鑰岀牬澹為€欏€嬬祼妲嬨€備竴鍊嬮浼肩殑渚嬪瓙鏄� HTTP 瑕忕瘎锛圧FC2616[5]锛夊畾缇╀簡 ISO-8859-1 浣滅偤闋愯ō鐨勭法纰硷紝浣嗘槸閫欏湪 HTML
> > 涓嬪畬鍏ㄤ笉琚娇鐢紙浠嶇劧鏄敤鐎忚鍣ㄧ殑浣跨敤鑰呰獮瑷€鐐烘渶绲傜殑绶ㄧ⒓锛夛紝璁婃垚浜嗕笉鏄緢鏈夋剰缇╃殑瑕忕瘎鏁樿堪銆�
> >
> > [5] http://tools.ietf.org/html/rfc2616
> >
> > 鍙︿竴鏂归潰鍙互瑷庤珫鐨勫晱椤屾槸 JS 瑭蹭笉瑭叉湁椤炰技 Python 鐨勫収宓岀法纰煎鍛奫6]锛�
> >
> > # -*- coding: utf-8 -*-
> >
> > 鐣㈢珶浼烘湇鍣ㄧ鐢ㄧ殑 JS 鍙兘鏈冭秺渚嗚秺澶氾紙鍥犵偤鏈塏ode.js锛夈€傞€欏€嬪晱椤屽氨鐣欑郸澶у瑷庤珫浜嗭紙鏈変汉鐭ラ亾Node.js鐨勬儏褰㈠棊锛燂級锛屼笉閬庡皪鏂肩€�
> > 瑕藉櫒渚嗚锛屾渻闇€瑕佸畾缇╁劒鍏堝簭鐐猴細
> >
> > 鑵虫湰鐨� "Content-Type" 妯欓牠 > charset > 鍏у祵绶ㄧ⒓ > HTML 鐨勭法纰�
> >
> > 鎴栨槸
> >
> > 鑵虫湰鐨� "Content-Type" 妯欓牠 > 鍏у祵绶ㄧ⒓ > charset > HTML 鐨勭法纰�
> >
> > 鐢氳嚦鏄洿鎺ュ拷鐣ュ収宓岀法纰笺€傛亹鎬曡牷闆ｄ笅涓€鍊嬫焙瀹氱殑銆�
> >
> > (11/05/09 10:13), Ben Luo wrote:
> >
> > 鏄ㄥぉ鐪� ECMAScript v5 鐨勬爣鍑嗭紝瀛楃缂栫爜瑕佹眰鏄疷CS-2 鎴� UTF-16,
> > 鍦╤tml5涓槸浠€涔堣姹傦紵鍦ㄧ幇瀹炰腑濂藉儚澶у閮芥槸鐢╱tf-8浣滀负瀛楃缂栫爜銆傚姝ゅぇ瀹舵湁浠€涔堝績寰楋紵
> >
> > 瑁滃€� ECMAScript v5 閫ｇ祼 鈫� http://people.mozilla.org/~jorendorff/es5.html
> > 鎺ㄨ枽绲﹀皪 JS 绋ó濂囨€鐐烘劅鍒版啢鎬掔殑鏈嬪弸鍊�
> >
> > 涔熸杩庡ぇ瀹跺付鍏朵粬妯欐簴鐨勫績寰楄垏瑷庤珫閫蹭締閫欏€嬭◣璜栫祫锛堝寘鎷琁ETF锛夛紝鑻ユ槸鏈夋洿濂界殑瑷庤珫鍦版柟涔熸杩庢彁渚涢€ｇ祼锛�
> >
> >
> > 姝よ嚧
> >
> > 鍛� 搴疯豹锛圞enny锛�, 涓枃鑸堣叮灏忕祫W3C閫ｇ怠浜�
> > 鎺ㄧ壒: http://twitter.com/kanghaolu
> > 鍣楁氮: http://www.plurk.com/kennyluck
> > 鏂版氮寰崥: http://t.sina.com.cn/1950042164
> >
> >
>
Received on Wednesday, 8 June 2011 16:42:15 UTC