Re: [moztw-general] 請幫忙檢查 HTML Parser 錯誤訊息的翻譯 from Kang-Hao (Kenny) Lu on 2011-11-04 (public-html-ig-zh@w3.org from November 2011)

From: Kang-Hao (Kenny) Lu <kennyluck@w3.org>
Date: Fri, 04 Nov 2011 16:54:03 +0800
To: Peter Pin-Guang Chen <petercpg@mail.moztw.org>
CC: 火狐俱樂部 <moztw-general@googlegroups.com>, 中文HTML5同樂會ML <public-html-ig-zh@w3.org>
Message-ID: <4EB3A82B.9060605@w3.org>
(11/11/03 15:55), Peter Pin-Guang Chen wrote:
> 再補充一下，Mozilla 的 dev-l10n 討論群組裡面也有人在提這件事，看來原本的英文都不見得讓人看得懂(汗)
> http://groups.google.com/group/mozilla.dev.l10n/browse_thread/thread/edcd0eeffe0159d1

哈哈，要為各式各樣的解析錯誤提供一行敘述真的是很困難的事。

>> 首先是常用字
>>
>> character — 翻字符好像是新趨勢？還是大陸用法？（我是蠻習慣講字符就是了）
>> reference — 我會翻「引用」，不過沒太強烈的意見。
> 我沒有意見，這是參考 http://xml.ascc.net/zh/utf-8/gloss.html 翻譯的名詞表
> W3C/WHATWG 好像沒有定義這些名詞的翻譯? 如果能確定一份出來我倒是不介意使用

那這樣就翻「字符引用」吧。

中文興趣小組 Wiki 蒐集了一個名詞表的列表[1]，我剛剛已經把你找的也加進去
了。Wiki 上還有一個非常不完整的詞彙表[2]，總之我先把 character 跟
character reference 加進去了。但是非常不完整，所以應該還沒有到接近「標
準」的程度吧 :)

不過話說回來，我翻譯就是
* 先用最多人用的，基本上我會傾向用維基百科那個自動轉換用的對照表，因為應
該最多人看。（如果那個不是最多人用的那反而應該改那個）
* 如果已經有分岐不可避免（像是繁體的「即時」跟簡體的「實時」），那再看情況。

就這個例子來說，「字符引用」還有一個好處是簡繁體一樣。:)

[1] www.w3.org/html/ig/zh/wiki/辭彙表/词汇表_-_繁體简体中文对照版
[2] www.w3.org/html/ig/zh/wiki/辭彙表

>>> errNoDigitsInNCR=字元參引當中沒有數字。
>> 這裡原文是 "No digits in numeric character reference"。現在興趣小組規範
>> 翻譯目前是用「數字型字符引用」。畢竟是專有名詞，最好一致一點，有不太同意
>> 的意見的話一起討論一下。
> 跟前面一樣，如果中文興趣小組有翻的話我想我們可以中文小組翻出來的結果。

同樣加到詞彙表裡了，有反對意見的歡迎註冊一個帳號直接更改（把覺得最對的翻
譯放前面，把不覺得對的往後擺），或是直接在這個列表發聲一下。

>>> errBogusComment=偽造的註解。
>> 這真的很難，不過畢竟有人看不懂還是改一下吧。這是 <!- a --> <? ?> <!-&
>> --> 等等各種狀況的集合，功能上來講的話我建議翻成「註解語法不正確」就好
>> 了。話說回來，HTML5 規範把這個詞當作名詞來用，所以的確可能需要一個專有名
>> 詞...
>>
>> 「不正註解」怎麼樣？（很想直接翻「搞笑註解」之類的...）
>>
>> 這個詞喔，一般是用在比較「惡搞」 的地方，像是 <!-- 漏結尾就太不像惡搞
>> 了，沒有 bogus 的感覺。一般是說 <meta charset=abc> 這種感覺。我不知道一
>> 般會不會用「假」或是「擬」描述這種情形耶？
> 如果是翻譯成「無效的註解語法」呢?
> Bogus 這個字的情況跟 astral「星空」、stray「雜亂」的情況有點像，太口語了。

如果仔細去思考「無效」的意義的話好像不太對耶， <!- a --> 還是會變成註
解... 只是內容不是 " a " 而是 "- a --" 而已...

>>> errUnquotedAttributeLt=在一個沒有被引號包起來的屬性值當中發現「<」。可
>>> 能造成的原因: 前面缺少「>」。
>> 這是 <meta charset=utf-8<style>...</style> 的情形，從功能來看，與其寫
>> 「缺少」，用「少打了」怎麼樣？後面類推。
> 我不確定是不是要這麼口語? 但我也不介意使用「少打了」。

那還是「缺少」好了。

>>> errUnquotedAttributeGrave=在一個沒有被引號包起來的屬性值當中發現
>>> 「`」。可能造成的原因: 使用了不正確的符號作為註解。
>> 這是 <meta charset=`utf-8`> 的情形，「使用不正確的引號字符」可能比較容易懂？
> 「`」是西方人的重音符號，所以我想不應該說是不正確的引號?

這是 Unix/Python/PHP 的 backtick 的說。例如：ls -l `which python`

其實「符號」「引號」都好啦，我忘了提後面那個不是「註釋」而應該是「引
號」。或許可讀性來講的確是「不正確的字符/符號」比較好。

> 同意把「在」這個贅字拿掉。
> &lt 這種寫法應該是以往 IE 繼承過來的歷史共業...不過不知道 IE 9/10 修掉這個了沒?

剛好相反，這已經是 HTML 標準草案的一部分了喔[3]，應該沒有瀏覽器有修這個
的打算把，向後兼容的風險太大了（想像一下多少人少打了「&lt」後面的
「;」）。 規範裡的例子是：
「I'm &notit; I tell you」→「I'm ¬it; I tell you 」
「I'm &notin; I tell you」→「I'm ∉ I tell you」
不過在屬性裡沒有第一個轉換.... 太可怕了

[3]
http://www.whatwg.org/specs/web-apps/current-work/multipage/tokenization.html#tokenizing-character-references

>> maybeErrSlashInEndTag=在結束標籤的結尾發現了雜散的「/」。
>>
>> </b /> 的情形，「在結束標籤的結尾發現了多餘的『/』」？
> 把雜散通通改成多餘的會不會有問題？

大概沒有吧。

>>> errNcrCr=數值字元參引擴充到換行符號。
>> U+000D 或是俗稱 '\r'，我不曉得有沒有跟 '\n' 區隔的中文名字啦...
> 認真的解釋應該要把 CR 叫做印字頭歸位? 但我想這年頭應該沒必要這樣翻了。

這麼多年來 CR 沒有一個翻譯我好意外啊。什麼都沒有的話我看講 CR（或是
'\r'）好了，反正這個本來就是給懂技術的人看的，講換行符號太容易讓人想到
'\n' 了吧。

>>> errNcrZero=字元參引擴充到零。
>> 「零」→「空字符」（一般怎麼稱呼 U+0000 NULL？）
> 就直接叫做 Null，或是空字符我想也可。

仔細想想其實 Null 不錯，「空字符」這個講法的邏輯缺陷是 U+0000 NULL 其實
是一個非字符。講「空代碼點」又太冗了。
Received on Friday, 4 November 2011 08:54:34 UTC