Re: Unicode に拡張した字間プロパティ 8/3 version

敏先生、

ありがとうございます。おかげさまでずいぶん見えてきました。

敏先生の、これは入れる、と言ってくださった文字は例外なく Unicode General Category (GC)=L*、つまり言葉を表す文字であり。また GC=L* でないものは例外なく除外(゠・ 〓〃)、となっています。この狭間、GC=L* であるが、入れるかな?とボーダーラインなのがマス、除外されているのが長音となります。

ルールに書くとこんなふうになります。

全角、非 Ideographic、GC=L*、Script=Han or Common (Katakana, Hiragana, Han の複合)
々
〻
〱〲(およびそれらの断片)
〼
ー(長音)

これらのうちマス以外の文字には Extender というプロパティがついています。これは「前の文字の値や形を延長する」という性質の文字につけられるプロパティです。前のフレーズを引き継ぐ「〱」、前の漢字を引き継ぐ「々〻」、前の母音を引き継ぐ長音「ー」、ということです。

マスは、文字通り「ます」という読みで読まれて文の中に入りますし、準漢字的に捉えて良いのではないかと思います。入れましょうよ。

という前提で結論をまとめると、去就が決まっていなかった文字のうち J に入るのは:
々 U+3005 IDEOGRAPHIC ITERATION MARK (Script=Han, GC=Lm)
〻 U+303B VERTICAL IDEOGRAPHIC ITERATION MARK (Script=Han, GC=Lm)
〱 U+3031 VERTICAL KANA REPEAT MARK(およびその断片)(Script=Common, GC=Lm)
〲 U+3032 VERTICAL KANA REPEAT WITH VOICED SOUND MARK(およびその断片)
〼 U+303C MASU MARK (GC=Lo)

ですね。

GC=L* である文字の中で長音のみ分類が異なりますが、それはそれということで。

木田

> 2021/08/05 14:08、Kobayashi Toshi <binn@k.email.ne.jp>のメール:
> 
> 木田泰夫 様
> 
>  小林 敏 です.
> 
> 私の意見を記しておきます.
> 
>  木田泰夫 さんwrote
> 
>> クラス J の拡張について、仮名や漢字っぽいけれど漢字でないものについて、固めて
>> おきたいと思います。これらについて昨日のミーティングで:
>> 
>> - 〇 は数字の十や百などと入れ替わるので入れる
>> - 〓 はどちらでも良い
>> となりました。残りの他の仮名や漢字っぽいものはどうでしょう。個々の文字につい
>> てどうこうよりも、意味、由来、デザイン、用法、などから、入るべき、入らないべ
>> き、の基準を理解したいと思います。
> 
>> 入っていないもの(Block=Katakana)
>> ー U+30FC KATAKANA-HIRAGANA PROLONGED SOUND MARK cl-10
>> ゠ U+30A0 KATAKANA-HIRAGANA DOUBLE HYPHEN cl-03
>> ・ U+30FB KATAKANA MIDDLE DOT cl-05
> 
> 以上は欧字との間は原則として四分空けない.つまり,漢字でも仮名でもない.ただし,“゠”は,漢字や仮名との間を四分アキにする配置法もあるが,それは,それを選択した結果なので,指示して空ける.二分ダーシやハイフンと似た用法で,二分ダーシやハイフンは欧字との間は原則として四分空けない.空ける方式もあるが,それも指示して空けるということで,同じ扱いでよい.
> 
>> 入っていないもの cl-09(Block = CJK Symbols and Punctuation)
>> 々 U+3005 IDEOGRAPHIC ITERATION MARK (Script=Han, GC=Lm)
>> 〻 U+303B VERTICAL IDEOGRAPHIC ITERATION MARK (Script=Han, GC=Lm)
>> 〱 U+3031 VERTICAL KANA REPEAT MARK(およびその断片)(Script=Common, GC=Lm)
>> 〲 U+3032 VERTICAL KANA REPEAT WITH VOICED SOUND MARK(およびその断片)
> 
> 々 入れる 漢字と同様に使用するので.(行頭禁則文字とするので,考えなくてよいといったが,行頭禁則文字は分割で問題になるので,漢字と同等に使用するということをはっきりした方がよい.)
> 
> 〻 “々”と同様に漢字と組み合わせて使用すので,“々”と同じ扱いにする必要がある.
> 
> 〱と〲 ヽやヾと同様に扱う必要があるので,漢字又は仮名ということで入れる.仮名の代用が多いが,漢字の代用もありえる.
> 
>> 入っていないもの cl-19(Block = CJK Symbols and Punctuation, Script=Common)
>> 〓 U+3013 GETA MARK (GC=So)
>> 〼 U+303C MASU MARK (GC=Lo)
>> 〃 U+3003 DITTO MARK (GC=Po)
> 
> 〓 入れない.これはどんな文字かは決まらない.漢字,仮名,欧字,記号など,どんなものとも代用になるもの.漢字や仮名の代用と限定されない,と考えれば,一貫するのでは……
> 
> 〼 うーん? 漢字的な使用がありえるので入れるかな?
> 
> 〃 入れない.これは漢字でも仮名でもない.表等で“同上”の意味で使用され,漢字や仮名の代用と限定されない(アラビア数字の代用も考えられる).本文では,あまり使用されないことと,記号といえるので,入れない.

Received on Thursday, 5 August 2021 13:25:40 UTC