Re: 文字集合の独立性

木田さんが incommensurableという言葉に異を唱えたので尻馬にのって私も。

数学の群論でいうincommensurable
<https://en.wikipedia.org/wiki/Commensurability_(group_theory)>は、どこか一か所でも公約数があればダメです。どこかひとつのコードポイントにおいて、MJコレクションのIVSと、汎用コレクションのIVSが指すものが同じならダメです。JIS
X 0208とJIS X 0208+JIS X 0213も、どこか一つのコードポイントが指すものが同じならダメです。

村田 真


2024年6月12日(水) 18:38 木田泰夫 <kida@mac.com>:

> 小林さん、
>
> ありがとうございます。一番重要だと思う二点から:
>
>
> 一点は、incommensurableとは数学的には複数の数字の間に公約数のないこと(例えば9と10)を示すのですが、小林さんが挙げられた例の間にはまさに公約数があるように感じられます。例えばMJコレクションは汎用コレクションから作られたと理解していますが、その場合、包摂範囲の変更による字体の集約が行われたはずで、それなら1対多の対応関係が明らかなはずです。X0208とX0213の間も然り。なら、それらの文字符号位置の間には素直な包含関係があることになり、つまりまさに公約数があって、incommensurableではないことになります。議論を読んで、これは単に包含関係にあるだけでは、もしそうでなければMJ担当者出てこい!が、第一印象でした。
>
> ただし、全く別個に作られた文字セット間にはincommensurableな例が見つけられそうです。例えば、ある漢字(なんと表現して良いかわかりませんが、概念的に一個の漢字。とりあえず例えば「龍」)を、ある文字セットでは二つの字体ABに分けて文字コードを振っており、別の文字セットでもXY二つに分けていたとします。しかし、ABの分類と、XYの分類の視点、包摂基準、が異なる可能性があります。最初の文字セットでAに分類された字形は、別の文字セットでXかも、Yかもしれません。一つの字形の所属に、A:X,
> A:Y, B:X, B:Yと全部で4通りの可能性が生まれます。
>
>
>
> もう一点疑問に思った点は、例として筆文字を使っておられますが、異なる書体の文字を、明朝体ベースに作られた文字セットのどの文字とみなすかには、ここで議論されていることとはまた違う、翻刻に似た解釈の側面の問題があります。議論点を明確にするには、同じ明朝体を使うべきではないでしょうか。
>
>
> 細かい点:
>
> ・incommensurableの説明が間違っています。commensurableとは同一の数字で割り切れること、つまり公約数のあることを意味します。incommensurableは公約数のないこと。例えば9と10はincommensurableです。分数で言えば、9/10はこれ以上約分できないことになります。
> ・というか、この単語の意味を長々としなければならないくらいなら、説明をしなくて良い、もしくは簡単に説明できる表現で言うべきではないでしょうか?
> 読者の半分は、この単語の意味の説明を読んでお腹いっぱいになって本来の議論に辿り着かないような気がします。もしくは辿り着いても読後感が、へー、incommensurableってそんな意味なんだ、ニュートンと相対論なんだ、なんてことになりかねません。
> ・対象が誰かによっては、専門用語を説明・整理した方が良いかもしれません。
>
> ・先頭あたりはほぼ一文一文が段落になっています。そのような時に、字下げの段落スタイルを使うと、2行目以降の飛び出たところが目立って、一見ぶら下がり段落のように見えてしまって読みにくいです。
> ・最後の混乱の例ですが、「塜」U+585Cは、「塚」U+585Aやその互換文字である「塚
> 」U+FA10とは全く意味も読み(ホウ、ブ)も異なる文字のようです。カキとコケラ、みたいな関係です。学生さんの名前がU+585Cだったとすると、これは受講生名簿のデータの誤り。とすると、問題の性質がこの議論と異なるように思います。学生さんのお名前がこの字形で、ツカと読ませるなら、それはつまり意味は「
> 塚
> 」なわけですが、そのような例をツカとして扱うためには、似ていて間違えやすい文字一致検索的な機能が必要かもしれません。話はズレますが、MJの文字セットも重要ですが、そんな細かい文字セットなら、それを扱うためのライブラリ、つまりUnicodeに対するICUのようなもの、の開発も同じくらい重要ですね。
> ・ちなみに、「塚」U+585Aですが、中国語(繁体簡体両方)のフォントでは、U+FA10の字形、すなわち点あり、で実装されているようです。JIS
> X
> 0213には両方あるのでU+FA10が存在する必要があるんですね。この問題は今回の議論に近いです。中国での解釈と、日本での解釈が異なるのは、そもそもベースとしていた国内規格が違うからでしょう。
>
> ・読後感想ですが、文にオチが欲しいと思いました。つまり、それでどうした、ということです。理屈的な問題点はわかった。でも実生活にはあまり影響がないらしい。今のままでは、結局あまり影響ないのね、と言う読後感になってしまいそうです。実際的に何が問題なの?なぜこの話題を持ち出したの?と言う説明が欲しいと思いました。
>
> 木田
>
>
> 2024/06/12 8:42、小林龍生 <tlk@kobysh.com>のメール:
>
> 敏さま、木田さま、山本さま、みなさま、
> 小林龍生です。
>
> 昨日のJIS X 0213を巡る議論に関連して。
> まだドラフト段階ですが、CITPCの会長ブログのために書いているアーティクル。
> ぼく的には、死ぬまでに一度は書いておかなければ、と思っていること。
> それぞれに、立場の違いはおありでしょうが、叩いていただければ幸い。
> 因みに、この前段階の字体と字形を巡るアーティクルもアップしてあります。
> https://moji.or.jp/about/tatsuoblog/

> <文字集合の独立性.docx>
>
>
>

-- 
Regards,
Makoto

Received on Wednesday, 12 June 2024 09:58:28 UTC