Re: 字間のため（だけ）のクラス、簡便化案 from 木田泰夫 on 2021-04-05 (public-i18n-japanese@w3.org from April to June 2021)

From: 木田泰夫 <kida@mac.com>
Date: Mon, 5 Apr 2021 21:08:45 +0900
To: JLReq TF 日本語 <public-i18n-japanese@w3.org>
Message-Id: <AD75C685-2CB5-4EB0-920F-639203F01491@mac.com>

簡便な行組版ルールとの比較
「簡便な行組版ルール(案)　2018年5月19日(敏) Ver. 2. 1」において敏先生が示された簡略化クラスおよびその字間のテーブルとの比較をしました。

先に提案した字間のためだけに絞ったクラスは、cl-19 / 27 の分割を除くと、簡略化クラスと見事に一致しています（下の表）。 E/G が二つに分かれていますが、これは敏先生の簡略化クラスが行の折り返しもサポートするから。

また、先のメールに書いた「JLReq からの変更点」の上から三つは敏先生の簡略化クラスに既に採用済みです。

始め括弧類 (cl-i)
A
終わり括弧類等 (cl-ii)
B
中点類 (cl-iv)
C
和字間隔 (cl-vii)
D
行頭禁則和字 (cl-v)
E
仮名漢字等 (cl-viii)
E
欧文用文字 (cl-xi)
F
行頭禁則約物類 (cl-iii)
G
欧文間隔 (cl-x)
G
前置省略記号 (cl-vi)
na
ルビ付 (cl-ix)
na
縦横中の文字 (cl-xii)
na

表で na となっているものは、私の提案で範囲外としたクラスたちですが、簡便な行組版ルールの表1を見ると、ルビ付 cl-ix と縦中横の文字 cl-xii は、字間のテーブルにおいて仮名や漢字と同じ挙動、つまり E、通常の漢字と同じに扱って良いことになります。


行の調整処理で空ける処理が可能な箇所、の簡略＋Unicode版
めんどくさいなー、と思っていた「行の調整処理で空ける処理が可能な箇所」ですが、簡便な行組版ルールから出発したら、簡単かつ美しい結果になりました。敏先生が既にほとんどの仕事をしてくださっていたことを改めて認識しました。

下の表は簡便な行組版ルールの「行の調整処理で空ける処理が可能な箇所」表の内容をそのままに、字間のためのクラス A-F との対応がわかるように、クラスの順番を並べ替えたものです。これを見ると空ける処理が可能な文字クラスは見事に E に集まります。

つまり、行の調整処理に必要なクラス分けは、前のメールで提案した字間のために必要なクラス  A-F のサブセットということになります。

ここで敏先生に幾つか質問があります：
・第一優先の、終わり括弧類の後ろの調整は JLReq Appendix E にはない新しい処理という理解で正しいですか？
・JLReq では和欧文間を二分まで広げるのが、欧文間隔についで二番目の処理となっていますが、簡便ルールではこれが落とされています。簡便ルールではここは固定で広げないということになりますか？
・処理に優先順位をつけるのはどのくらい重要でしょう？ 優先順位のない場合、日本語と英語が混じったような文章で、欧文間隔を広げる処理と、漢字間を広げる処理を同時に行うことになりますが、素人目、特定の場所のみが広がるよりもこの方が自然に思えます。どんなもんでしょう？



木田

> 2021/04/04 17:00、木田泰夫 <kida@mac.com>のメール:
> 
> JLReq TF の皆さま、
> 
> ギリギリになりましたが、前回 3/9 のミーティングで私と下農さんとの宿題になっていた字間のためのクラスの報告・提案です。
> 
> 下農さんが Unicode 拡張に苦労しておられたので、まず Unicode への拡張を考える前に、敏先生からのアドバイスを得つつ、字間のためだけを考えた場合に、現状のクラスをどのように簡便化できるかという視点でまとめてみました。クラスを統合できれば Unicode への拡張がやりやすくなります。
> 
> 
> 前提
> 1) 字間のみを考える。行の折り返しは異なるロジックで実装されていることが多く、両方の挙動をまとめたクラスを作ってもクラス数が増えるだけであまり嬉しくなさそう、という理由です。また行の調整処理に必要なクラスを字間とまとめておいた方が使い良いのかどうかわかりませんが（石井さん、村上さん？）、まずはバラバラに考えてみようと思います。
> 2) いくつかの JLReq クラスは考慮外：従前の議論により、cl-12/13 前置／後置省略記号を削除。コンテキストを表す cl-20-30 は考慮外。
> 
> 
> 簡便化字間クラスの構成
> 簡便化の結果、七つにまとめることができました。それぞれ空き要求の性質でクラスを説明することができます。
> 
> A: 前に空間を必要とする約物：始め括弧類 cl-01
> B: 後ろに空間を必要とする約物：終わり括弧類と句読点 cl-02, 06, 07
> C: 両側に空間を必要とする約物：中点類 cl-05
> D: そのものが空間な約物：和字間隔 cl-14
> E: アルファベットとの間に空間を必要とする文字、漢字類：仮名と漢字 cl-9,10,11,15,16、および cl-19 の漢字
> F: 漢字類との間に空間を必要とする外国語文字：cl-27 のうち Letter であるもの
> G: どの文字ともベタ：その他全ての文字。cl-03, 04, 08, 17, 18, 26、cl-19 の非漢字、cl-27 の非ラテンアルファベット
> 
> 
> JLReq からの変更点
> 以下が JLReq からの変更点です。小林先生、個々の是非についてフィードバックありがとうございます。JLReq の記述に沿って和文約物を半角と考えた場合の空き量で変更点を表しています。
> ・句読点｜中点：3/4 アキ→終わり括弧に合わせて四分アキ
> ・句読点｜和字間隔：二分アキ→終わり括弧に合わせてベタ
> ・区切り約物｜欧文：四分空き→G に含めるためベタ
> ・cl-19：漢字と非漢字を分離し、漢字のみがアルファベットと空間を作り D、非漢字はどの文字ともベタで G
> ・cl-27：ラテンアルファベットと記号を分離。ラテンアルファベットは漢字と空間を作るので F、記号はどの文字ともベタで G
> 
> 
> 議論点
> おそらく、一番影響のある変更は最後の二つ、cl-19/27 からの記号の分離でしょう。記号はどの和欧文文字ともベタとなります。ベタになっては困る文字はあるでしょうか。また、漢数字〇やゲタ〓など漢字と交換して使われる記号の処遇も議論の余地があるかもしれません。Unicode への拡張を考えるとこの手の例外がない方がありがたいです。
> 
> （ところで、記号約物の対語の日本語は何ですかね？ Unicode では Letter と表されています）
> 
> 
> 簡便化字間クラスの空き量数値
> 添付の表
> 
> 
> Unicode への拡張
> 今日後ほどこの簡便化をベースとした Unicode への拡張の可能性について考えてみます。この簡便化案でも垣間見られますが、決めの難しいポイントは「漢字類との間に空きを必要とする外国語文字」の範囲の定義でしょう。アラビア文字やデヴァナガリやギリシャ文字と漢字が隣あった時に空間は必要でしょうか？ ただし決めの難しさの割には重要性は低いように思われます。頻度が低く、また空きが必要だと思ったら U+0020 を入れれば良いから。
> 
> 木田
> 
> <PastedGraphic-2.pdf>
> 
> 
>> 文字クラスの国際化
>> ほとんど時間がなく、1) 今まで議論してきた字間クラスをまとめたデータを作り、Unicode のプロパティに落とし込むことができるか調査する（木田、下農） 2) 次回のミーティングでは、字間以外にどのような文字クラスが必要か、どのような機能が文字による挙動の違いの影響を受けるかをレビューすること、を決めた。
> 
>
Attachments

text/html attachment: stored
application/pdf attachment: PastedGraphic-4.pdf
text/html attachment: stored
Received on Monday, 5 April 2021 12:09:03 UTC