Re: 和欧文間の空き or Segment Break Transformation Rules

石井さん:
> 「行末だけ」案は、私のゴールを達成できますが、現状と互換性がなく、現状動作を望む人もいるため、難しいのではないでしょうか。「日本語の間のみを削除」案は、それを望む人がほぼいないであろう、という前提から、動作変更が可能と思われていますが、空白が入る想定で「日本語+英数」の間で改行しているコンテンツは存在すると思います。

はい。私もほとんど同じ考えです。私の案は <https://lists.w3.org/Archives/Public/public-i18n-japanese/2020AprJun/0232.html>、(空白が入る想定で「日本語+英数」の間で改行しているコンテンツは存在する)だから、(空白が入ることを望む人がほぼいないであろう)
 * 日本語の句読点+英数字
 * 英数字+全角開き括弧
 * 全角閉じ括弧+英数字
といったところに限定して改行を無視する規則を追加するものです。追加するルールの案で句読点や括弧の開き閉じの区別などを無視してUnicode Punctuation (P*) としたのは、そのように仕様を単純にしても(開き括弧のあとで改行を入れたりすることは普通しないだろうから)問題は起きないだろうという考えですが、それが違っているというのならばもっと条件を絞ってよいでしょう。

目指しているものがそんなに違うようには思えないのですが、いかがでしょうか?

--
村上 真雄 (MURAKAMI Shinyu)
murakami@vivliostyle.org



On Sat, May 16, 2020, at 05:32, Koji Ishii wrote:
> 2020年5月16日(土) 3:02 Shinyu Murakami <murakami@vivliostyle.org>:
>> __
>> ゴールはそんなに違わないと思います。私の案の意図は、せっかくの仕様ができても欠点があって役に立たない残念な仕様とならないようにすることです。
>> :
>> :
>> 私の案は、HTMLをより簡単に書けるようにするとともに、言語的に自然な位置で改行を入れられるようにするものです。
> 
> 私の理解が遅いのかもしれませんが、やっぱりゴールが違う気がします。「言語的に自然な位置で改行を入れる」は私のゴールにはないです。
> 
> 空白が入るか、入らないかが、HTMLを見てより簡単に判断できる、が私のゴールであり、村上さんの案は私のゴールにはマイナス方向ですが、村上さんのゴールには、良い案だと思います。
> 
> それが間違っていると言っているのではないですよ、どうやっても完全に自然な改行は処理できない、ということは合意いただいていると思いますが、それでも少しでも正解率を上げよう、ということですよね。私の考え方は、エラーが一定率ある以上、エラー処理を簡単にする方が優先だと思っているため使いづらいと感じますが、そういう考え方もあると思います。
> 
> 想定しているエラー率にも差があるかもしれませんね。以前に、適当に改行が入れられたテキストファイルから元の文章を再現する仕事をしました。いろんなルールを入れて、膨大なコーパスでテストしてエラー率を減らしていくんですが、おおよそどのファイルにも幾つかのエラーが残りました。その程度のエラー率を想定して、エラーチェックを楽にしたい、という考えが来ていると思います。
> 
> 「行末だけ」案は、私のゴールを達成できますが、現状と互換性がなく、現状動作を望む人もいるため、難しいのではないでしょうか。「日本語の間のみを削除」案は、それを望む人がほぼいないであろう、という前提から、動作変更が可能と思われていますが、空白が入る想定で「日本語+英数」の間で改行しているコンテンツは存在すると思います。

Received on Saturday, 16 May 2020 01:01:02 UTC