Re: 文字クラスの国際化 from Atsushi Shimono (W3C Team) on 2021-03-16 (public-i18n-japanese@w3.org from January to March 2021)

From: Atsushi Shimono (W3C Team) <atsushi@w3.org>
Date: Tue, 16 Mar 2021 22:53:26 +0900
To: public-i18n-japanese@w3.org
Message-ID: <c4f2a712-7419-f94a-1d09-971d7a43b9cf@w3.org>
 shimonoです

 前回以降、cl-04以降のPoのカテゴリについて、添付の表のようなものを作って眺めていたりします。
 PoかつEAW=F/A/W or cl-04の追加文字、についてUnicodeのプロパティーを一覧にしたものです。灰色背景
のものが非既定値のプロパティーです。

On 2021/03/16 16:03, 木田泰夫 wrote:
>> いっそのこと，ごく
>> 簡単に問題になる事項，最初は必須の処理事項をしぼり，国際化を考慮してクラ
>> ス分けしてみる．次に，それに新たな目的を追加し（組版レベルが上がるという
>> ことでもある），どう細分化するのか考えてみるのもよいかもしれない．（いっ
>> てみれば，細かい状況になっているものを見直すのでなく，最初からやりなおし
>> てみるということです
> 
> ありがとうございます。敏先生のご意見は規則を作ってきた者ならではの自在さと重みがあります。
> 
> 全角問題を考えても、単純に文字クラスを拡張すれば済む問題ではないことが見えてきたように思います。クラス分けとその組版を組み立て直してみるのが良いのかもしれませんね。
> 
> 
>> 文字間のアキ（行頭・行末を含む）で以下
>>  アキを抱える括弧類と句読点，中点
> 
> 文字間のアキのための文字クラスには、文字の中にアキが含まれているのか、どこにあるのか。それが最重要ということですね。
> 
> これは言われてみれば当然に思えますが、JLReq の文字クラスを Unicode のプロパティで表そうとして突き当たる問題にも現れてきます。JLReq のクラスはアキの制御に使われるのに、Unicode にはアキのことを考えたプロパティがないのです。
> 
> それがよくわかるのが cl-04 区切り役物 や cl-05 中点類です。
> 
> cl-04 は疑問符と感嘆符ですが、これらは機能的には句点 cl-06 と同じで一つの文を終わらせる機能があります。ではなぜ cl-04 と cl-06 が分かれているかというと、後ろのアキの量が違う。cl-06 は後ろに半角のアキを要求し、デジタルフォントのグリフにはこのアキが既に含まれています。cl-04 は後ろに全角を要求します。cl-04 と cl-06 の違いはアキの違いです。ところが、Unicode のプロパティで一文を終わらせる機能を持つ役物を見つけることはできますが、アキの要求量の異なる句点と疑問符感嘆符を見分けることができません。

 cl-04の後ろの空きについては、フォントと組版の役割分担という中でのフォント自体が空き量をちゃんと
プロパティーで持つという戦略・すみわけで行くなら、倍角(懐かしやのワープロ時代の用語？)のフォント
にして、連続したところは空きを削る処理で消してもらって、というのでも同じ処理で行けるなぁ、とは思っ
たりはしています。
 まぁ、というよりは、cl-04とcl-06は本体(?)が全角と半角の違いがあって、漬けている空きもそれと同じ
く全角と半角の違いがある、という出自なのかなとも思ったりと。。
 が、！とかの後ろを空けたりという処理の詳細を把握できていないので例外規定がいっぱいあるのかとか
はよくわかっていないところではありますが。



> もう一つの例は cl-05 です。ここには片仮名中点、全角コロンとセミコロンが含まれます。機能的に言うと中点は単語を繋ぐハイフンの仲間、コロンとセミコロンはフレーズを終える読点の仲間。機能的には異なる文字が cl-05 に集められているのは、両側に四分空きがあるという共通点があるから。アキ要求が同一なこれらの文字を集められるプロパティは Unicode にありません。
> 
> 
>> 次のレベルは
>>  欧文が組み込まれた場合の問題はなにが問題になるか，新たな文字クラスは必
>> 要になるか
>>  ここでは，プロポーショナルの文字が含まれる問題を考えてもよい．
>>  仮名などがプロポーショナル，約物がプロポーショナルの場合は？
> 
> JLReq で全角を前提としている約物の多くが Unicode において必ずしも全角でないという問題に対処する必要があります。
> 
> これらの文字は三つくらいのグループに分けることができるように思います：
> A) Unicode に新たな文字を追加すべき可能性のある文字たち。クォーテーションマークやダッシュ、リーダ類
> B) 日本語組版では全角であることを期待すると宣言すれば良さげな文字たち：二重感嘆符・疑問符の類
> C) 全角であることの期待をやめて、プロポーショナル前提で考えるべきであろう文字たち：cl-17/18 の演算子の多く。cl-19 漢字類に含まれる漢字以外のものの多く、例えばギリシャ、キリル文字や記号類
> 
> この三つの区分けは今の思いつきですが、その区分けが適当なのかどうかは議論の余地があります。
> 
> またそのグループ分けが適当だとして、さてどの文字がどこに含まれるべきかの判断は難しいものになると思われます。例えば丸の中に文字が入るものたち、どれは全角であることが当然期待しても良いでしょうか。また黒三角のような幾何学的記号のどれが全角であるべきでしょう。もしかすると、East Asian Width 的な、日本語書体ではこの幅を期待する、チャートができあがるのかもしれません。現在のフォントの実態調査が必要になりましょう。

 本来的にはEAWの値がその分類なんじゃないでしょうか、と、F/A/Wでフィルターしたcl-01/02の表を作って
いて思ったところであります。逆に"East Asian" Widthなんですから、期待しているものと違う値がアサイン
されている文字があればA)に入るかもしくはEAWの値の修正を提案してみる案件？なのかな？と。
# ここの”？”のあとは本来ならば全角を空けるんだろうか、、、？


> また、全角を期待する文字が全角でなかったらどう組版すれば良いかを考える必要があります。

 なんかこちらはまた別軸に分けた方がいい議論かな、という思いが強くなっている今日この頃。。
Attachments

application/octet-stream attachment: jlreq-unicode-prop-202103.xlsx
Received on Tuesday, 16 March 2021 13:53:32 UTC