Re: 和欧文間の空き or Segment Break Transformation Rules

2020年5月16日(土) 3:02 Shinyu Murakami <murakami@vivliostyle.org>:

> ゴールはそんなに違わないと思います。私の案の意図は、せっかくの仕様ができても欠点があって役に立たない残念な仕様とならないようにすることです。
> :
> :
> 私の案は、HTMLをより簡単に書けるようにするとともに、言語的に自然な位置で改行を入れられるようにするものです。
>

私の理解が遅いのかもしれませんが、やっぱりゴールが違う気がします。「言語的に自然な位置で改行を入れる」は私のゴールにはないです。

空白が入るか、入らないかが、HTMLを見てより簡単に判断できる、が私のゴールであり、村上さんの案は私のゴールにはマイナス方向ですが、村上さんのゴールには、良い案だと思います。

それが間違っていると言っているのではないですよ、どうやっても完全に自然な改行は処理できない、ということは合意いただいていると思いますが、それでも少しでも正解率を上げよう、ということですよね。私の考え方は、エラーが一定率ある以上、エラー処理を簡単にする方が優先だと思っているため使いづらいと感じますが、そういう考え方もあると思います。

想定しているエラー率にも差があるかもしれませんね。以前に、適当に改行が入れられたテキストファイルから元の文章を再現する仕事をしました。いろんなルールを入れて、膨大なコーパスでテストしてエラー率を減らしていくんですが、おおよそどのファイルにも幾つかのエラーが残りました。その程度のエラー率を想定して、エラーチェックを楽にしたい、という考えが来ていると思います。

「行末だけ」案は、私のゴールを達成できますが、現状と互換性がなく、現状動作を望む人もいるため、難しいのではないでしょうか。「日本語の間のみを削除」案は、それを望む人がほぼいないであろう、という前提から、動作変更が可能と思われていますが、空白が入る想定で「日本語+英数」の間で改行しているコンテンツは存在すると思います。

Received on Friday, 15 May 2020 20:32:58 UTC