- From: 木田泰夫 <kida@mac.com>
- Date: Mon, 23 Nov 2020 16:23:27 +0900
- To: "public-i18n-japanese@w3.org" <public-i18n-japanese@w3.org>
- Message-Id: <A434DD14-B01C-4EF7-9560-9885D35CED28@mac.com>
少しだけ分析(の予備考察を)してみました。 まず、JLReq の文字クラスのうち、特定の文脈を指定するクラス cl-20/21/22/23/24/25/28/29/30 を除いた状態で、一つの文字が複数のクラスに含まれる例は、一文字の例外を除いて全て "cl-27 欧文用文字” との重複でした。 一例だけ、"cl-17 等号類”、“cl-19 漢字等”、"cl-27 欧文用文字" の三つのクラスに現れるのが、U+2194, ↔, LEFT RIGHT ARROW なのですが、これは他の矢印を差し置いて(?)これだけ特別な理由がちょっとわかりませんでした。 この例はちょっと傍へ置いておいて、全ての重複例が、漢字等と欧文用文字の重複だとすれば、文字を見た時にその文字がどのクラスかを一意に決めるカギは、それが和文コンテキストなのか、欧文コンテキストなのか、ということですね。 Eric の提案では、横書き、縦書き、日本語でない場合、と三つのコンテキストを設定していて、ぱっと見ですが、横書きならより欧文コンテキスト、縦書きなら和文、という区分けをしている文字が多いような印象を持ちました。 ただ、そうなっていないケースも多く、JLReq に和字としての役割と欧文文字としての役割両方が書いてあるのに、Eric の提案では常に和字のルールで扱っている文字もあります(例:左シングル or ダブル引用符)。また、JLReq の分離禁止文字で、縦書の場合には分離禁止ではなくしている文字がありました(例:三点リーダ)。 みなさまの分析も聞かせてください。 来週のミーティングでは、仮想クラスは脇に置いておいて、先に Eric の提案を JLReq と付き合わせながら、コンテキスト依存性をどうするのが良いのか考えるのはどうでしょう? 木田 ––– データですが、全文字リストを JLReq クラス別に並べた形式にすると結構便利だったので、そのファイルをお送りします。それぞれの文字は一回しか現れないので、例えば cl-01/cl-27 な文字は cl-01 のグループに並べられていて、cl-27 のグループからは欠けているのに注意して見てください。 また、リストを作るのに使った ruby スクリプトもおまけにつけておきます。JLReq_CharClass.rb を実行するとリストが吐き出されます。他のファイルはそこから使っている私の汎用ライブラリです。特に使用説明書はつけません。ruby がいじれる方は遊んでみてください。
> 2020/11/23 9:55、木田泰夫 <kida@mac.com>のメール: > > みなさま、やっとできました(疲!) > > JLReq のクラスと Eric 提案のクラスの比較データを作りました。タブ区切りファイルなので、スプレッドシートにでも読み込ませると見やすいと思います。 > > 私はここで息が切れたので、みなさま分析をぜひ。 > > > 添付ファイルは二つ: > ・一つは JLReq のクラスで定義されている全文字のリスト。カラムには JLReq のクラス、Eric 提案のクラス、Unicode の Vertical Orientation (UAX50)、Unicode の文字幅クラス (UAX11)など。 > ・二つ目のファイルは、JLReq のクラスとEric 提案のクラスの対応の全種類を抽出したもの。文字名や文字コードはその組み合わせの代表的な文字です。このファイルは50行ちょっとなので下にもペーストしました。 > > ファイルの読み方 > ・JLReq クラス:複数のクラスに属する文字は、スラッシュで分けてそれらのクラスを示しています。重複の多くが欧文コンテキストで使われる場合でしょうかね。敏先生が仮想クラスへ変更の提案があった "cl-20", "cl-21", "cl-22", "cl-23", "cl-24", "cl-25", "cl-28", "cl-29", "cl-30” は無視しています。これらのクラスはどの文字もそのクラスに属していたり、他のクラスのサブセットだったりします。 > ・Eric 提案のクラスは3カラムあります。横書きの時、縦書きの時、日本語でない時、の三つです。 > ・その後ろは代表的な文字の情報。Unicode の縦書き属性 (UAX50)、文字幅クラス (UAX11)、JLReq での日本語文字名、コードポイント、です。 > > > さて、Eric の提案との比較での一つのキモは、JLReq で同じ文字が複数のクラスに含まれているケース(例えば cl-19/cl-27)と Eric の提案との比較です。JLReq で複数のクラスに含まれているということはその文字が異なったコンテキストで違った組版となることを意味していて、Eric はそれを縦書き、横書き、日本語でない場合、の三つのケースに分けてクラス化しています。その比較。また、他に JLReq では同じクラスなのに、Eric の提案では異なるクラスに分かれているケース。また、JLReq で分かれているのに、Eric の提案では一つになっているケース、などがあると思います。 > > 私もまた来週には参戦しますが、それまでにみなさま分析をよろしくお願いしたく。 > > ファイルについて質問があれば聞いてください。 > > 木田 > > > ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– > cl-26 justifyingSpace ideographic R Na U+0020 > cl-27 westernChar ideographic R Na 感嘆符 U+0021 > cl-27 justifyingSpace ideographic R N ノーブレークスペース U+00A0 > cl-19/cl-27 westernChar ideographic U A 節記号 U+00A7 > cl-01/cl-27 openingBracket_other ← R N 始め二重山括弧引用記号,始めギュメ U+00AB > cl-27 unknown ← R A ソフトハイフン U+00AD > cl-13/cl-27 postfixedAbbrev ideographic R A 度 U+00B0 > cl-18/cl-27 westernChar ideographic U A 正又は負符号 U+00B1 > cl-02/cl-27 closingBracket_other ← R N 終わり二重山括弧引用記号,終わりギュメ U+00BB > cl-03/cl-27 hyphen_middlePunctuation ← R A ハイフン(四分)/ハイフン U+2010 > cl-08/cl-27 inseparable_emDash ideographic R A ダッシュ(全角)/ダッシュ U+2014 > cl-02/cl-27 closingBracket_other ← westernChar R A 右シングル引用符,右シングルクォーテーションマーク U+2019 > cl-08/cl-27 inseparable_twoDotLeader ideographic R A 二点リーダ U+2025 > cl-08/cl-27 inseparable_ellipsis ideographic R A 三点リーダ U+2026 > cl-13/cl-27 postfixedAbbrev ← U A パーミル U+2030 > cl-19 ideographic ← U A 米印 U+203B > cl-04 dividingPunctuation ← U N 感嘆符二つ U+203C > cl-12/cl-27 prefixedAbbrev ← R A ユーロ記号 U+20AC > cl-13 postfixedAbbrev ← U A セ氏度記号 U+2103 > cl-27 ideographic ← U N エイチバー U+210F > cl-12 prefixedAbbrev ← U A 全角NO U+2116 > cl-19/cl-27 ideographic ← U A 3分の1 U+2153 > cl-19/cl-19 ideographic ← U A ローマ数字12 U+216B > cl-17/cl-19/cl-27 ideographic ← R A 同等 U+2194 > cl-17/cl-27 ideographic ← R A ならば(含意) U+21D2 > cl-18/cl-27 ideographic ← R N 負又は正符号 U+2213 > cl-14 fullSpace ← U F U+3000 > cl-07 comma_ideo ← Tu W 読点 U+3001 > cl-06 fullStop_ideo ← Tu W 句点 U+3002 > cl-09 iterationMark ← U W 繰返し記号 U+3005 > cl-01 openingBracket_other ← Tr W 始め山括弧 U+3008 > cl-02 closingBracket_other ← Tr W 終わり山括弧 U+3009 > cl-01 openingBracket_corner ← Tr W 始めかぎ括弧 U+300C > cl-02 closingBracket_corner ← Tr W 終わりかぎ括弧 U+300D > cl-03 hyphen_other ← Tr W 波ダッシュ U+301C > cl-08 inseparable_repeatUpper ← U W くの字点上 U+3033 > cl-08 inseparable_repeatVoiceUpper ← U W くの字点上(濁点) U+3034 > cl-08 inseparable_repeatLower ← U W くの字点下 U+3035 > cl-11 smallKana ← Tu W 小書き平仮名あ U+3041 > cl-15 hiragana ← U W 平仮名あ U+3042 > cl-19 hiragana ← U W より U+309F > cl-03 hyphen_katakana ← Tr W 二重ハイフン,二分二重ダッシュ U+30A0 > cl-16 katakana ← U W 片仮名ア U+30A2 > cl-05 middleDot_middlePunctuation ← U W 中点 U+30FB > cl-10 prolongedSoundMark ← Tr W 長音記号 U+30FC > cl-19 katakana ← U W コト U+30FF > cl-19 postfixedAbbrev ← U W 全角KK U+33CD > cl-01 openingBracket_round ← Tr F 始め小括弧,始め丸括弧 U+FF08 > cl-02 closingBracket_round ← Tr F 終わり小括弧,終わり丸括弧 U+FF09 > cl-18 ideographic ← U F 正符号,加算記号 U+FF0B > cl-07 comma_western ← Tu F コンマ U+FF0C > cl-06 fullStop_western ← Tu F ピリオド U+FF0E > cl-05 middleDot_colon ← Tr F コロン U+FF1A > cl-17 ideographic ← R F 不等号(より小) U+FF1C > ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– > > > > <JLReqとEricの提案のクラス比較_全リスト.txt><JLReqとEric提案のクラスの差異.txt>
Attachments
- text/plain attachment: JLReq___Eric____________________________JLReq____________.txt
- text/x-ruby-script attachment: EastAsianWidth.rb
- text/x-ruby-script attachment: JLReq_CharClass.rb
- text/x-ruby-script attachment: X0213.rb
- text/x-ruby-script attachment: VerticalOrientation.rb
- text/x-ruby-script attachment: EMullerProposal.rb
Received on Monday, 23 November 2020 07:25:12 UTC