- From: 木田泰夫 <kida@mac.com>
- Date: Tue, 30 Jan 2024 17:00:11 +0900
- To: tajima@sanyosha.co.jp
- Cc: Taku Yamaguchi <study.yamahige@gmail.com>, JLReq TF 日本語 <public-i18n-japanese@w3.org>
- Message-Id: <CFBA9D35-3E2B-41EB-A65F-F74BC9E39D39@mac.com>
> 2024/01/29 16:20、tajima@sanyosha.co.jpのメール: > 木田さま > >> 2024/01/29 14:53、木田泰夫 <kida@mac.com>のメール: >> インラインで: >> >>> 2024/01/29 13:22、tajima@sanyosha.co.jpのメール: >>> 木田さま >>> みなさま >>> >>> 印刷の時代からデジタルテキストへという視点で細かいことを言うと(まさにそのあたりで苦労しているので)、 >>> >>> ・印刷「データ」とは限らないと思います。DTP成立前は印刷物の元の版は製版用フィルムやその前は活版紙型でした。 >> >> すみません、この指摘、議論のどの部分に対してですか? 「限らない」主語がわかりませんでした。 > > すみません、「ある意味デジタルな、活字の選択」あたりで引っかかったのですが、読み返すとそこまで違和感はないですね。 ちょっとわかりにくかったですかね。活字や写植などの文字は、この文字、と、あの文字、が明確に分かれていますよね。無限のバリエーションのある手書きと異なり、活字は飛び飛びの値になります。誰もに対してわかりやすい例となるかどうかわかりませんが、数直線を埋め尽くす実数と、飛び飛びの整数の違い。これが「ある意味デジタルな、活字の選択」の意味です。私にはしっくりくる表現なのですが、もうちょっと考えます。 データやフィルムや活版紙型は文字を選択して並べた、その後の伝達手段であって、もちろんそこに着目した技術区分も可能ですが、ここでは文字をどう書くか、に着目しているわけです。 >>> ・出版界隈ではPDFは製版用フィルムを代替できるものとして認知され、広まった経緯があるように思われます。 >>> ・「版」としてはテキストが生きているかどうかは必ずしも重視されません。 >>> ・InDesignやIllustrator等で作られたDTPデータでも、文字がアウトライン化されていてテキストが取り出せないケースはあります。 >> >> これらの例は過渡期というより印刷の時代の典型的な姿かと思います。オリジナルが、(それが既にmachine readable textでないなら)解釈と、プロの校正を経て、印刷用の文字(活字にせよデジタルにせよ)の列となり、レイアウトされて画像として固定される。それが送り手の元から受け手の元へ送られる。 >> >> 過渡期では、そのように作られた画像を再び解釈して文字情報を起こすことが必要な場面がきっとありますね。そのことを言っておられるのでしょうか? リフロー型の電子書籍やウェブでそのようにして作られるものは多いですか? > > 一般的とまでは言えないかもしれませんが、おおむね2000年台前半以前に作られた本のリフローでの電子化の依頼は時々あり、それらは例えデータが残っていたとしても電算写植機のデータだったり今はほぼ使われていない過去のDTPソフトのデータだったりしますので、テキスト再入力が必要になります。当然相応のコストがかかってしまいます。 高性能なOCRが欲しいですね。約物もコンテキストと設定に合わせて工夫してくれるとか、間違っていたり余分な文字を処理してくれたり、語彙の統一をしてくれたり、適切にルビをつけてくれたり。 というかそういうグラマーチェッカーの進化版のようなものが、通常のワードプロセッサーの道具としても欲しいですね。 > それとは別のケースとして見出し部分をビジュアル的に作り込みたいなどの意図でアウトライン化された画像として配置してあるようなケースもビジネス書などでは見られ、これも元テキストデータがない場合には再入力することになります。 確かに。表紙や見出しはデザインが欲しい場所ですもんね。 木田 >>> などが思い浮かぶところです。こちら界隈でも「版」を作るのではなく構造化された「データ」を作るのだ、という意識の切り替えが必要なんでしょうがなかなか浸透は難しそうではあります。 >> >> なるほど。意識が切り替えて、浸透を進めるためにjlreq-dで何かできることはあるでしょうかね… >> >> 木田 >> >>>> 2024/01/29 12:58、木田泰夫 <kida@mac.com>のメール: >>>> >>>> >>>>> …これに4) AIがテキストを生成する時代を加えるのは先走り過ぎでしょうか。 >>>> >>>> :D >>>> >>>> まあ、誰が、書くかは変わりますが、その下の仕組みは同じですから、それも 3) でいいんじゃないでしょうか。 >>>> >>>> >>>> いつの日か、コンピューターがさらに進化して、ぐるっと一周し戻ってコンピューターも人間のように画像でテキストでもなんでもを理解するようになったら、文字コードなんて必要なくなる、、、なんて時代がもし来たら第4時代になるかも? >>>> >>>> 木田 >>>> >>>>> 2024/01/29 12:10、Taku Yamaguchi <study.yamahige@gmail.com>のメール: >>>>> >>>>> >>>>> みなさま、 >>>>> 山口です。 >>>>> >>>>> > 書き手の視点で時代は、1) 手書きの時代、2) 印刷の時代、3) デジタルテキスト、と大きく三つに分かれる >>>>> >>>>> いいですね、この3つに分けると整理しやすいですね。 >>>>> >>>>> …これに4) AIがテキストを生成する時代を加えるのは先走り過ぎでしょうか。 >>>>> >>>>> 2024年1月29日(月) 10:46 木田泰夫 <kida@mac.com <mailto:kida@mac.com>>: >>>>>> 小林さん & みなさま、 >>>>>> >>>>>> これはおもしろいですね! 私は今までデジタルテキストの特性を、イメージが生成されるタイミングの違いとして(送り元で固定 vs 受け手で生成)捉えていましたが、書き手の視点で見ると、また違った根本的な違いが見えてくるのですね。 >>>>>> >>>>>> 今までの議論を見ていると、書き手の視点で時代は、1) 手書きの時代、2) 印刷の時代、3) デジタルテキスト、と大きく三つに分かれるように思います。手書きの時代は、書いたイメージがそのまま伝えられます。解釈は受け手に委ねられます。印刷の時代は、書かれたものが一旦解釈を経て、ある意味デジタルな、活字の選択として表現され、受け手に届けられます。デジタルテキストでは書き手が、個々の文字の抽象的な意味を固定します。すなわち、適切な文字の選択の責任が専門家から個々人に移ります。イメージの生成は受け手に委ねることになります。キャラクター・グリフモデルの帰結ですね。 >>>>>> >>>>>> このようにデジタルテキストにおいては、手書きの時代と違う意味で、書き手の責任がとても大きい。書くということは、文字の意味を選択することだから。しかるに、正しい意味を持った文字を選択するのは場合によって困難である。さてどうするか。そこに、jlreq-d の最初の章、テキストの書き方、の章の必要性が生まれます。 >>>>>> >>>>>> というストーリーができました。 >>>>>> >>>>>> さて、この「テキストの書き方」の章では文字の選択についてどの程度のことをカバーすべきでしょうか? 言語の書き方は国語審議会に任せるとして、おそらく約物が主体になるかと思いますが、個別の約物の使い方を説明するかどうか。どの程度まで個別に踏み込むか。 >>>>>> >>>>>> それ以外に、例が挙がったような誤用しやすい例、「〜」の例のような使い手による意味の拡大、余分なスペースの意図しない混入、などここで議論されているその他の問題もカバーすべきですね。 >>>>>> >>>>>> 木田 >>>>>> >>>>>> > 2024/01/28 15:59、Taku Yamaguchi <study.yamahige@gmail.com <mailto:study.yamahige@gmail.com>>のメール: >>>>>> > みなさま、 >>>>>> > 山口です。 >>>>>> > >>>>>> > JLReq-dの組版の要件としては、次のように書くのでいかがでしょうか? >>>>>> > >>>>>> > ---- ここから ---- >>>>>> > 文字や記号を点検する場面では組版には次のような工夫が必要である: >>>>>> > * 点検に向いたフォントを使う。または、そもそも、そのような用途のフォントをデザインする。 >>>>>> > * 詰めなどの処理。例えば、空白の有無や空白の数を点検する場合はjustifyにしない、など。 >>>>>> > ここで点検には、商業出版における校正や、一般のWebにおけるパスワードや住所の正確な入力(伝達)などを含む。 >>>>>> > >>>>>> > このような工夫が必要となった背景には…(小林龍生さんの「手で書くこととデジタルに書くことの違い」)。書籍の出版では…(小林敏先生のコメント)。 >>>>>> > ---- ここまで ---- >>>>>> > >>>>>> >> 敏先生 wrote: >>>>>> >> 必要でない箇所に余分なスペース(U+0020など)が原稿作成で入力されるケースもある. >>>>>> > >>>>>> > そうですね。PDFからコピー&ペーストすると空白が混ざることが多いです。文献から論文に引用する場合などで要注意です。 >>>>>> > 空白に限らず、PDFやワープロやWebからコピー&ペーストすると、意図しない文字や文字コードが紛れ込んで気づかないことがあります…もっとも今回のは、その「意図」が手書きの頃とは異なるという話ですが。 >>>>>> > >>>>>> > >>>>>> > 2024年1月28日(日) 8:36 Kobayashi Toshi <binn@k.email.ne.jp <mailto:binn@k.email.ne.jp>>: >>>>>> >> >>>>>> >> 小林龍生 様 >>>>>> >> 木田泰夫 様 >>>>>> >> みなさま >>>>>> >> >>>>>> >> 小林 敏 です. >>>>>> >> >>>>>> >>> 小林龍生 さんwrote >>>>>> >>> 先日の手書きとデジタル書きの違い。簡単にまとめてみました。 >>>>>> >> >>>>>> >>> 小林敏 wrote >>>>>> >> >>>>>> >>> いくつか気が付いた事項をコメントしておきます. >>>>>> >> >>>>>> >> 前のメールに追記 >>>>>> >> >>>>>> >> 手書き原稿では,いくつかの点検が行われるが,他方,文字の新規の入力(活字組版では文選)作業が行われるので,そこに誤りが出るケースもあり,校正は欠かせない. >>>>>> >> >>>>>> >> 手書き原稿では,文脈に応じて問題のない文字や記号が入力される.デジタルテキストでは,原稿作成が入力作業であり,そのデータを使用するので,括弧類,句読点など,和文用とラテン文字用がある場合,それが混用されてしまうという,手書き原稿では,例外はあるが,一般に発生しない問題が起こる.また,必要でない箇所に余分なスペース(U+0020など)が原稿作成で入力されるケースもある.原稿編集作業が十分でないと,こうした事項が問題を起こす場合もある.
Received on Tuesday, 30 January 2024 08:00:32 UTC