Re: [moztw-general] 請幫忙檢查 HTML Parser 錯誤訊息的翻譯 from Peter Pin-Guang Chen on 2011-11-04 (public-html-ig-zh@w3.org from November 2011)

From: Peter Pin-Guang Chen <petercpg@mail.moztw.org>
Date: Sat, 5 Nov 2011 03:33:49 +0800
To: "Kang-Hao (Kenny) Lu" <kennyluck@w3.org>
Cc: 火狐俱樂部 <moztw-general@googlegroups.com>, 中文HTML5同樂會ML <public-html-ig-zh@w3.org>
Message-ID: <CAPd3dBnZC+fV7yk1gs-_V3cjSaVn=5sjmC+=NuM0xO4p7cOL_g@mail.gmail.com>
Kang-Hao (Kenny) Lu <kennyluck@w3.org> 於 2011年11月4日下午4:54 寫道：

> (11/11/03 15:55), Peter Pin-Guang Chen wrote:
> > 再補充一下，Mozilla 的 dev-l10n 討論群組裡面也有人在提這件事，看來原本的英文都不見得讓人看得懂(汗)
> >
> http://groups.google.com/group/mozilla.dev.l10n/browse_thread/thread/edcd0eeffe0159d1
>
> 哈哈，要為各式各樣的解析錯誤提供一行敘述真的是很困難的事。
>
> >> 首先是常用字
> >>
> >> character — 翻字符好像是新趨勢？還是大陸用法？（我是蠻習慣講字符就是了）
> >> reference — 我會翻「引用」，不過沒太強烈的意見。
> > 我沒有意見，這是參考 http://xml.ascc.net/zh/utf-8/gloss.html 翻譯的名詞表
> > W3C/WHATWG 好像沒有定義這些名詞的翻譯? 如果能確定一份出來我倒是不介意使用
>
> 那這樣就翻「字符引用」吧。
>
> 中文興趣小組 Wiki 蒐集了一個名詞表的列表[1]，我剛剛已經把你找的也加進去
> 了。Wiki 上還有一個非常不完整的詞彙表[2]，總之我先把 character 跟
> character reference 加進去了。但是非常不完整，所以應該還沒有到接近「標
> 準」的程度吧 :)
>
> 不過話說回來，我翻譯就是
> * 先用最多人用的，基本上我會傾向用維基百科那個自動轉換用的對照表，因為應
> 該最多人看。（如果那個不是最多人用的那反而應該改那個）
> * 如果已經有分岐不可避免（像是繁體的「即時」跟簡體的「實時」），那再看情況。
>
> 就這個例子來說，「字符引用」還有一個好處是簡繁體一樣。:)
>
> [1] www.w3.org/html/ig/zh/wiki/辭彙表/词汇表_-_繁體简体中文对照版<http://www.w3.org/html/ig/zh/wiki/%E8%BE%AD%E5%BD%99%E8%A1%A8/%E8%AF%8D%E6%B1%87%E8%A1%A8_-_%E7%B9%81%E9%AB%94%E7%AE%80%E4%BD%93%E4%B8%AD%E6%96%87%E5%AF%B9%E7%85%A7%E7%89%88>
> [2] www.w3.org/html/ig/zh/wiki/辭彙表<http://www.w3.org/html/ig/zh/wiki/%E8%BE%AD%E5%BD%99%E8%A1%A8>


想到一個問題，「字符引用」這個詞本身是用引用這個動詞做結尾，如果遇到後面接的詞彙是這個名詞的動作的時候就可能會重複。

例如我有發現幾句是像這樣的句子:
errAstralNonCharacter=字符引用引用了超過基本文字平面的字符。

這樣反而是個滿怪的中文句子。 有什麼好方式避開嗎?
(考慮在視窗裡看的到發生問題的 HTML 位置，我暫時先忽略掉前面的名詞了，)


> >>> errNoDigitsInNCR=字元參引當中沒有數字。
> >> 這裡原文是 "No digits in numeric character reference"。現在興趣小組規範
> >> 翻譯目前是用「數字型字符引用」。畢竟是專有名詞，最好一致一點，有不太同意
> >> 的意見的話一起討論一下。
> > 跟前面一樣，如果中文興趣小組有翻的話我想我們可以中文小組翻出來的結果。
>
> 同樣加到詞彙表裡了，有反對意見的歡迎註冊一個帳號直接更改（把覺得最對的翻
> 譯放前面，把不覺得對的往後擺），或是直接在這個列表發聲一下。
>
> >>> errBogusComment=偽造的註解。
> >> 這真的很難，不過畢竟有人看不懂還是改一下吧。這是 <!- a --> <? ?> <!-&
> >> --> 等等各種狀況的集合，功能上來講的話我建議翻成「註解語法不正確」就好
> >> 了。話說回來，HTML5 規範把這個詞當作名詞來用，所以的確可能需要一個專有名
> >> 詞...
> >>
> >> 「不正註解」怎麼樣？（很想直接翻「搞笑註解」之類的...）
> >>
> >> 這個詞喔，一般是用在比較「惡搞」 的地方，像是 <!-- 漏結尾就太不像惡搞
> >> 了，沒有 bogus 的感覺。一般是說 <meta charset=abc> 這種感覺。我不知道一
> >> 般會不會用「假」或是「擬」描述這種情形耶？
> > 如果是翻譯成「無效的註解語法」呢?
> > Bogus 這個字的情況跟 astral「星空」、stray「雜亂」的情況有點像，太口語了。
>
> 如果仔細去思考「無效」的意義的話好像不太對耶， <!- a --> 還是會變成註
> 解... 只是內容不是 " a " 而是 "- a --" 而已...
>

這樣我還是想不到這邊有什麼好用的詞彙 orz


>  >>> errUnquotedAttributeLt=在一個沒有被引號包起來的屬性值當中發現「<」。可
> >>> 能造成的原因: 前面缺少「>」。
> >> 這是 <meta charset=utf-8<style>...</style> 的情形，從功能來看，與其寫
> >> 「缺少」，用「少打了」怎麼樣？後面類推。
> > 我不確定是不是要這麼口語? 但我也不介意使用「少打了」。
>
> 那還是「缺少」好了。
>
> >>> errUnquotedAttributeGrave=在一個沒有被引號包起來的屬性值當中發現
> >>> 「`」。可能造成的原因: 使用了不正確的符號作為註解。
> >> 這是 <meta charset=`utf-8`> 的情形，「使用不正確的引號字符」可能比較容易懂？
> > 「`」是西方人的重音符號，所以我想不應該說是不正確的引號?
>
> 這是 Unix/Python/PHP 的 backtick 的說。例如：ls -l `which python`
>
> 其實「符號」「引號」都好啦，我忘了提後面那個不是「註釋」而應該是「引
> 號」。或許可讀性來講的確是「不正確的字符/符號」比較好。
>

我重新讀了四五遍才搞懂你的意思XD
我原本的意思是「不正確的註解符號」，那樣簡略地打的確會造成理解錯誤，修掉了。


>  > 同意把「在」這個贅字拿掉。
> > &lt 這種寫法應該是以往 IE 繼承過來的歷史共業...不過不知道 IE 9/10 修掉這個了沒?
>
> 剛好相反，這已經是 HTML 標準草案的一部分了喔[3]，應該沒有瀏覽器有修這個
> 的打算把，向後兼容的風險太大了（想像一下多少人少打了「&lt」後面的
> 「;」）。 規範裡的例子是：
> 「I'm &notit; I tell you」→「I'm ¬it; I tell you 」
> 「I'm &notin; I tell you」→「I'm ∉ I tell you」
> 不過在屬性裡沒有第一個轉換.... 太可怕了
>
> [3]
>
> http://www.whatwg.org/specs/web-apps/current-work/multipage/tokenization.html#tokenizing-character-references


我知道這個躺在標準裡啦，我們兩個也都是一樣的意思。

我要說的只是在很久很久以前，那個還在太初渾沌年代的時候，
我就看過有書上提過單就 IE 尾巴的那個分號可加可不加；如果使用 Netscape Navigator 就一定要加。
不加這樣太恐怖啦....


>  >> maybeErrSlashInEndTag=在結束標籤的結尾發現了雜散的「/」。
> >>
> >> </b /> 的情形，「在結束標籤的結尾發現了多餘的『/』」？
> > 把雜散通通改成多餘的會不會有問題？
>
> 大概沒有吧。
>
> >>> errNcrCr=數值字元參引擴充到換行符號。
> >> U+000D 或是俗稱 '\r'，我不曉得有沒有跟 '\n' 區隔的中文名字啦...
> > 認真的解釋應該要把 CR 叫做印字頭歸位? 但我想這年頭應該沒必要這樣翻了。
>
> 這麼多年來 CR 沒有一個翻譯我好意外啊。什麼都沒有的話我看講 CR（或是
> '\r'）好了，反正這個本來就是給懂技術的人看的，講換行符號太容易讓人想到
> '\n' 了吧。
>
> >>> errNcrZero=字元參引擴充到零。
> >> 「零」→「空字符」（一般怎麼稱呼 U+0000 NULL？）
> > 就直接叫做 Null，或是空字符我想也可。
>
> 仔細想想其實 Null 不錯，「空字符」這個講法的邏輯缺陷是 U+0000 NULL 其實
> 是一個非字符。講「空代碼點」又太冗了。
>
>
大概就是這樣，我先改掉我們討論下來大致有提過可以修的方向改上 etherpad 了。
有問題的歡迎再跳出來喊一聲 :)

~Peter
Received on Friday, 4 November 2011 19:35:45 UTC