Re: JLReq の文字クラスと Unicode の文字クラスとの関係

 shimonoです

 予備的調査のフォロー的なのを頑張ろうとしてます、、、

On 2020/02/01 03:14, 木田泰夫 wrote:
> *予備的調査*
> JLReq の文字クラスを見ると、文字が本来的に持っている性質ではなく、その文字が現れたコンテキストを表しているものがいくつかあります。これらはそもそも「文字クラス」ではなく、Unicode の文字プロパティで表すことができません。故にこれらは文字プロパティとは別の方法で記述する必要があります。まずこれらのクラスを省いて考えることにします。期待通り、これらのクラスにのみ含まれる文字はありませんので、これらを省いても分類から漏れる文字はありません。

# これ以外の↓の文字クラスの中にも本文の参照で個別文字を取り上げたり例外が多かったりする感も
あり、またtext-spacingとかでの空白の扱い呑みで利用されているとか、何か別な横串いれてきれいに
ならないかな、と思っていたりします。。


> これで JLReq 文字クラスが本来の文字クラスに近づきました。残った JLReq 文字クラスと Unicode General Category の対応を調べてみました。cl-nn が JLReq 文字クラス、アルファベット大文字と小文字の組み合わせがそこに含まれる文字の General Category です。
> 
>     cl-01Pi Ps
>     cl-02Pe Pf
>     cl-03Pd
>     cl-04Po
>     cl-05Po
>     cl-06Po
>     cl-07Po
>     cl-08Lm Pd Po
>     cl-09Lm
>     cl-10Lm
>     cl-11Lo
>     cl-12Po Sc So
>     cl-13Ll Po Sc So
>     cl-14Zs
>     cl-15Lo
>     cl-16Lo
>     cl-17Sm So
>     cl-18Sm
>     cl-19Ll Lo Lu Nd Nl No Po Sm So

 ふと思っていたのですが、cl-19はsec 1.3で
> 原則として,日本語組版で使用する漢字等(cl-19),平仮名(cl-15),片仮名(cl-16)の文字の
> 外枠は,正方形にデザインされており
という定義になっています。が、L*,N*,P*になるcl-19で例示されてるコードポイントってほとんどが
EAW=Nだと思うのです。。

>     cl-26Zs
>     cl-27Cf Ll Lm Lo Lu Mn Nd No Pc Pd Pe Pf Pi Po Ps Sc Sk Sm So Zs

 で、cl-09,10,11とかの同じ文字クラスに該当するものは、付属の表1-6では同じような挙動を示すも
のが見受けられる感じもあります。。
 とかいうところを見ていると、うーん、結構JLReq本体も整合性を取るために文字クラス含めて整理
しなおさないといけないのかなぁ、と。。

 まだ全然整理できていない試行の状態ではあるのですが、、、実装側の簡単なプロパティーセットで
一発判定が望ましい、と思うと、文字クラス側から整理していくよりは、個別機能要件ごとに洗い出し
をする方がいいのかなぁ、とちょっともやっと思いつつあるところです。。

Received on Friday, 6 March 2020 11:24:08 UTC