- From: 木田泰夫 <kida@mac.com>
- Date: Mon, 23 Nov 2020 09:55:08 +0900
- To: "public-i18n-japanese@w3.org" <public-i18n-japanese@w3.org>
- Message-Id: <3B939021-8F07-414E-9C9D-2BE18F3E3076@mac.com>
みなさま、やっとできました(疲!) JLReq のクラスと Eric 提案のクラスの比較データを作りました。タブ区切りファイルなので、スプレッドシートにでも読み込ませると見やすいと思います。 私はここで息が切れたので、みなさま分析をぜひ。 添付ファイルは二つ: ・一つは JLReq のクラスで定義されている全文字のリスト。カラムには JLReq のクラス、Eric 提案のクラス、Unicode の Vertical Orientation (UAX50)、Unicode の文字幅クラス (UAX11)など。 ・二つ目のファイルは、JLReq のクラスとEric 提案のクラスの対応の全種類を抽出したもの。文字名や文字コードはその組み合わせの代表的な文字です。このファイルは50行ちょっとなので下にもペーストしました。 ファイルの読み方 ・JLReq クラス:複数のクラスに属する文字は、スラッシュで分けてそれらのクラスを示しています。重複の多くが欧文コンテキストで使われる場合でしょうかね。敏先生が仮想クラスへ変更の提案があった "cl-20", "cl-21", "cl-22", "cl-23", "cl-24", "cl-25", "cl-28", "cl-29", "cl-30” は無視しています。これらのクラスはどの文字もそのクラスに属していたり、他のクラスのサブセットだったりします。 ・Eric 提案のクラスは3カラムあります。横書きの時、縦書きの時、日本語でない時、の三つです。 ・その後ろは代表的な文字の情報。Unicode の縦書き属性 (UAX50)、文字幅クラス (UAX11)、JLReq での日本語文字名、コードポイント、です。 さて、Eric の提案との比較での一つのキモは、JLReq で同じ文字が複数のクラスに含まれているケース(例えば cl-19/cl-27)と Eric の提案との比較です。JLReq で複数のクラスに含まれているということはその文字が異なったコンテキストで違った組版となることを意味していて、Eric はそれを縦書き、横書き、日本語でない場合、の三つのケースに分けてクラス化しています。その比較。また、他に JLReq では同じクラスなのに、Eric の提案では異なるクラスに分かれているケース。また、JLReq で分かれているのに、Eric の提案では一つになっているケース、などがあると思います。 私もまた来週には参戦しますが、それまでにみなさま分析をよろしくお願いしたく。 ファイルについて質問があれば聞いてください。 木田 ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– cl-26 justifyingSpace ideographic R Na U+0020 cl-27 westernChar ideographic R Na 感嘆符 U+0021 cl-27 justifyingSpace ideographic R N ノーブレークスペース U+00A0 cl-19/cl-27 westernChar ideographic U A 節記号 U+00A7 cl-01/cl-27 openingBracket_other ← R N 始め二重山括弧引用記号,始めギュメ U+00AB cl-27 unknown ← R A ソフトハイフン U+00AD cl-13/cl-27 postfixedAbbrev ideographic R A 度 U+00B0 cl-18/cl-27 westernChar ideographic U A 正又は負符号 U+00B1 cl-02/cl-27 closingBracket_other ← R N 終わり二重山括弧引用記号,終わりギュメ U+00BB cl-03/cl-27 hyphen_middlePunctuation ← R A ハイフン(四分)/ハイフン U+2010 cl-08/cl-27 inseparable_emDash ideographic R A ダッシュ(全角)/ダッシュ U+2014 cl-02/cl-27 closingBracket_other ← westernChar R A 右シングル引用符,右シングルクォーテーションマーク U+2019 cl-08/cl-27 inseparable_twoDotLeader ideographic R A 二点リーダ U+2025 cl-08/cl-27 inseparable_ellipsis ideographic R A 三点リーダ U+2026 cl-13/cl-27 postfixedAbbrev ← U A パーミル U+2030 cl-19 ideographic ← U A 米印 U+203B cl-04 dividingPunctuation ← U N 感嘆符二つ U+203C cl-12/cl-27 prefixedAbbrev ← R A ユーロ記号 U+20AC cl-13 postfixedAbbrev ← U A セ氏度記号 U+2103 cl-27 ideographic ← U N エイチバー U+210F cl-12 prefixedAbbrev ← U A 全角NO U+2116 cl-19/cl-27 ideographic ← U A 3分の1 U+2153 cl-19/cl-19 ideographic ← U A ローマ数字12 U+216B cl-17/cl-19/cl-27 ideographic ← R A 同等 U+2194 cl-17/cl-27 ideographic ← R A ならば(含意) U+21D2 cl-18/cl-27 ideographic ← R N 負又は正符号 U+2213 cl-14 fullSpace ← U F U+3000 cl-07 comma_ideo ← Tu W 読点 U+3001 cl-06 fullStop_ideo ← Tu W 句点 U+3002 cl-09 iterationMark ← U W 繰返し記号 U+3005 cl-01 openingBracket_other ← Tr W 始め山括弧 U+3008 cl-02 closingBracket_other ← Tr W 終わり山括弧 U+3009 cl-01 openingBracket_corner ← Tr W 始めかぎ括弧 U+300C cl-02 closingBracket_corner ← Tr W 終わりかぎ括弧 U+300D cl-03 hyphen_other ← Tr W 波ダッシュ U+301C cl-08 inseparable_repeatUpper ← U W くの字点上 U+3033 cl-08 inseparable_repeatVoiceUpper ← U W くの字点上(濁点) U+3034 cl-08 inseparable_repeatLower ← U W くの字点下 U+3035 cl-11 smallKana ← Tu W 小書き平仮名あ U+3041 cl-15 hiragana ← U W 平仮名あ U+3042 cl-19 hiragana ← U W より U+309F cl-03 hyphen_katakana ← Tr W 二重ハイフン,二分二重ダッシュ U+30A0 cl-16 katakana ← U W 片仮名ア U+30A2 cl-05 middleDot_middlePunctuation ← U W 中点 U+30FB cl-10 prolongedSoundMark ← Tr W 長音記号 U+30FC cl-19 katakana ← U W コト U+30FF cl-19 postfixedAbbrev ← U W 全角KK U+33CD cl-01 openingBracket_round ← Tr F 始め小括弧,始め丸括弧 U+FF08 cl-02 closingBracket_round ← Tr F 終わり小括弧,終わり丸括弧 U+FF09 cl-18 ideographic ← U F 正符号,加算記号 U+FF0B cl-07 comma_western ← Tu F コンマ U+FF0C cl-06 fullStop_western ← Tu F ピリオド U+FF0E cl-05 middleDot_colon ← Tr F コロン U+FF1A cl-17 ideographic ← R F 不等号(より小) U+FF1C –––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––
Attachments
- text/plain attachment: JLReq___Eric________________________________________.txt
- text/plain attachment: JLReq___Eric___________________________.txt
Received on Monday, 23 November 2020 00:55:41 UTC