JLReq のクラスと Eric の提案クラスとの比較

みなさま、やっとできました(疲!)

JLReq のクラスと Eric 提案のクラスの比較データを作りました。タブ区切りファイルなので、スプレッドシートにでも読み込ませると見やすいと思います。

私はここで息が切れたので、みなさま分析をぜひ。


添付ファイルは二つ:
・一つは JLReq のクラスで定義されている全文字のリスト。カラムには JLReq のクラス、Eric 提案のクラス、Unicode の Vertical Orientation (UAX50)、Unicode の文字幅クラス (UAX11)など。
・二つ目のファイルは、JLReq のクラスとEric 提案のクラスの対応の全種類を抽出したもの。文字名や文字コードはその組み合わせの代表的な文字です。このファイルは50行ちょっとなので下にもペーストしました。

ファイルの読み方
・JLReq クラス:複数のクラスに属する文字は、スラッシュで分けてそれらのクラスを示しています。重複の多くが欧文コンテキストで使われる場合でしょうかね。敏先生が仮想クラスへ変更の提案があった "cl-20", "cl-21", "cl-22", "cl-23", "cl-24", "cl-25", "cl-28", "cl-29", "cl-30” は無視しています。これらのクラスはどの文字もそのクラスに属していたり、他のクラスのサブセットだったりします。
・Eric 提案のクラスは3カラムあります。横書きの時、縦書きの時、日本語でない時、の三つです。
・その後ろは代表的な文字の情報。Unicode の縦書き属性 (UAX50)、文字幅クラス (UAX11)、JLReq での日本語文字名、コードポイント、です。


さて、Eric の提案との比較での一つのキモは、JLReq で同じ文字が複数のクラスに含まれているケース(例えば cl-19/cl-27)と Eric の提案との比較です。JLReq で複数のクラスに含まれているということはその文字が異なったコンテキストで違った組版となることを意味していて、Eric はそれを縦書き、横書き、日本語でない場合、の三つのケースに分けてクラス化しています。その比較。また、他に JLReq では同じクラスなのに、Eric の提案では異なるクラスに分かれているケース。また、JLReq で分かれているのに、Eric の提案では一つになっているケース、などがあると思います。

私もまた来週には参戦しますが、それまでにみなさま分析をよろしくお願いしたく。

ファイルについて質問があれば聞いてください。

木田


–––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––
cl-26 justifyingSpace ideographic  R Na  U+0020
cl-27 westernChar ideographic  R Na 感嘆符 U+0021
cl-27 justifyingSpace ideographic  R N ノーブレークスペース U+00A0
cl-19/cl-27 westernChar ideographic  U A 節記号 U+00A7
cl-01/cl-27 openingBracket_other	←		R	N	始め二重山括弧引用記号,始めギュメ	U+00AB
cl-27	unknown	←		R	A	ソフトハイフン	U+00AD
cl-13/cl-27	postfixedAbbrev	ideographic		R A 度 U+00B0
cl-18/cl-27 westernChar ideographic  U A 正又は負符号 U+00B1
cl-02/cl-27 closingBracket_other ←  R N 終わり二重山括弧引用記号,終わりギュメ U+00BB
cl-03/cl-27 hyphen_middlePunctuation ←  R A ハイフン(四分)/ハイフン U+2010
cl-08/cl-27	inseparable_emDash	ideographic		R	A	ダッシュ(全角)/ダッシュ	U+2014
cl-02/cl-27	closingBracket_other	←	westernChar	R	A	右シングル引用符,右シングルクォーテーションマーク	U+2019
cl-08/cl-27	inseparable_twoDotLeader	ideographic		R	A	二点リーダ	U+2025
cl-08/cl-27	inseparable_ellipsis	ideographic  R A 三点リーダ U+2026
cl-13/cl-27 postfixedAbbrev ←  U A パーミル U+2030
cl-19 ideographic ←  U A 米印 U+203B
cl-04 dividingPunctuation ←  U	N	感嘆符二つ	U+203C
cl-12/cl-27	prefixedAbbrev	←		R	A	ユーロ記号	U+20AC
cl-13	postfixedAbbrev	←		U	A	セ氏度記号	U+2103
cl-27	ideographic	←		U	N	エイチバー	U+210F
cl-12	prefixedAbbrev	←		U	A	全角NO	U+2116
cl-19/cl-27	ideographic	←		U	A	3分の1	U+2153
cl-19/cl-19 ideographic ←  U A ローマ数字12 U+216B
cl-17/cl-19/cl-27 ideographic ←  R A 同等 U+2194
cl-17/cl-27	ideographic	←		R	A	ならば(含意)	U+21D2
cl-18/cl-27	ideographic	←		R	N	負又は正符号	U+2213
cl-14	fullSpace	←		U	F		U+3000
cl-07	comma_ideo ←  Tu W 読点 U+3001
cl-06 fullStop_ideo ← 	Tu	W	句点	U+3002
cl-09	iterationMark	←		U	W	繰返し記号	U+3005
cl-01	openingBracket_other	←		Tr	W	始め山括弧 U+3008
cl-02 closingBracket_other ←  Tr W	終わり山括弧	U+3009
cl-01	openingBracket_corner	←		Tr	W	始めかぎ括弧	U+300C
cl-02	closingBracket_corner ←  Tr W 終わりかぎ括弧 U+300D
cl-03 hyphen_other ←  Tr W 波ダッシュ U+301C
cl-08 inseparable_repeatUpper ←  U W くの字点上 U+3033
cl-08 inseparable_repeatVoiceUpper ←  U W くの字点上(濁点) U+3034
cl-08 inseparable_repeatLower ←  U W くの字点下	U+3035
cl-11	smallKana	←		Tu	W	小書き平仮名あ	U+3041
cl-15	hiragana	←		U	W	平仮名あ	U+3042
cl-19 hiragana ←  U W より U+309F
cl-03 hyphen_katakana	←		Tr	W	二重ハイフン,二分二重ダッシュ	U+30A0
cl-16	katakana	←		U	W	片仮名ア	U+30A2
cl-05 middleDot_middlePunctuation ←  U W 中点 U+30FB
cl-10 prolongedSoundMark ←  Tr W 長音記号 U+30FC
cl-19 katakana ←  U W コト U+30FF
cl-19 postfixedAbbrev ←  U W 全角KK U+33CD
cl-01 openingBracket_round ←  Tr F 始め小括弧,始め丸括弧 U+FF08
cl-02 closingBracket_round ←  Tr F 終わり小括弧,終わり丸括弧 U+FF09
cl-18 ideographic ←  U F 正符号,加算記号 U+FF0B
cl-07 comma_western ←  Tu F コンマ U+FF0C
cl-06 fullStop_western ←  Tu F ピリオド	U+FF0E
cl-05	middleDot_colon	←		Tr	F	コロン	U+FF1A
cl-17	ideographic	←		R	F	不等号(より小)	U+FF1C
–––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––

Received on Monday, 23 November 2020 00:55:41 UTC