Re: HTML/XML TF Report glosses over Polyglot Markup from Martin J. Dürst on 2012-12-04 (www-tag@w3.org from December 2012)

From: Martin J. Dürst <duerst@it.aoyama.ac.jp>
Date: Tue, 04 Dec 2012 14:11:35 +0900
To: Noah Mendelsohn <nrm@arcanedomain.com>
CC: "Eric J. Bowman" <eric@bisonsystems.net>, Robin Berjon <robin@w3.org>, "Henry S. Thompson" <ht@inf.ed.ac.uk>, Leif Halvard Silli <xn--mlform-iua@xn--mlform-iua.no>, Henri Sivonen <hsivonen@iki.fi>, public-html WG <public-html@w3.org>, www-tag@w3.org
Message-ID: <50BD8607.2020308@it.aoyama.ac.jp>

On 2012/12/04 14:02, Noah Mendelsohn wrote:
> Robin Berjon wrote:
>
>> If
>> you want to process HTML using an XML toolchain, put an HTML parser
>> in front of it.
>
>
> On 12/3/2012 6:36 PM, Eric J. Bowman wrote:
>> I used to do it that way,
>> with Tidy and TagSoup, but have found it's simpler to just use an XSLT
>> engine capable of reading raw HTML,
>
> A question because I'm honestly curious: those XSLT engines don't use an
> HTML parser to do that? I would have thought most did. Maybe I'm
> guessing wrong.

It looks indeed more like a question of "external HTML parser vs. 
built-in HTML parser" rather than "HTML parser or not".

Regards,   Martin.

Received on Tuesday, 4 December 2012 05:13:25 UTC